L’invention du Perceptron représente pour beaucoup l’acte de naissance des réseaux de neurones et, si l’on considère qu’encore aujourd’hui il en constitue la brique élémentaire, c’est assez juste… même si à l’époque où il a été inventé, il n’a guère été plus qu’une curiosité scientifique puisqu’il n’a aucune application concrète à son actif.
Une invention innovante…
La grande originalité du Perceptron de Rosenblatt tient dans le fait qu’il a été créé dans une tentative de bio-mimétisme avec le neurone biologique. Rosenblatt tente tout simplement de simuler une activité intellectuelle des plus complexe : résoudre un problème mathématique et faire des prédictions ! Ce qui , dans les années 50, est tout à fait révolutionnaire surtout si l’on considère l’état de l’art de l’informatique de cette époque…
mais pas très efficace.
Cependant, si l’on regarde de plus près ce que fait réellement son neurone, on s’aperçoit que les poids et le biais du neurone ne sont rien de plus que les paramètres d’une droite.
w1 * x + w2 * y + b = 0 peut en effet s’écrire y = – w1/w2 * x – b/w2 soit tout simplement y = w1 * x + b (si l’on choisi w2 = -1 comme je le fais dans l’exemple utilisé pour la vidéo et qu’on garde sa valeur fixe).
Tous les points au-dessus de la droite donnent un résultat négatif aux calculs de Perceptron et ceux en-dessous un résultat positif. Bref, rien de plus que ce que ferait le plus simple des algorithmes linéaires déjà disponibles à l’époque. Et c’est ce qui a plongé très rapidement notre Perceptron dans l’oubli pour plusieurs décennies.
Un système de convergence économe en calcul…
Pour le système de convergence également, Rosenblatt innove.
Contrairement à la descente de gradient classique qui calcule à chaque itération la distance avec chaque point, il décide de ne faire ce calcul très lourd que lorsqu’il rencontre un point mal positionné.
L’économie énorme de calcul de son approche est particulièrement bienvenue à une époque où la puissance de calcul des ordinateurs est très limitée.
qui peine à converger…
Cette nouvelle méthode converge très rapidement au début du processus du fait de l’allègement des calculs. Mais vers la fin du processus, la convergence se fait attendre, parfois si longtemps que tous les gains initiaux sont perdus!
mais qui, elle-aussi, prépare l’avenir !
Le gain en puissance de calcul est tel que la méthode intéresse les mathématiciens qui la formalisent sous le nom de « descente de gradient stochastique ». Mais sa lenteur de convergence la maintiendra, elle-aussi, dans l’ombre pendant de nombreuses années.
Aujourd’hui, par contre, c’est la méthode qu’utilisent tous les réseaux de neurones modernes. Nous verrons pourquoi dans une prochaine Histoire de Science.