Qu'est-ce qu'un réseau de neurones ?

Une explication claire et accessible aux débutants de ce qu'est un réseau de neurones, de son fonctionnement et de la raison pour laquelle il est au cœur de l'IA moderne.

Un réseau de neurones est un type de modèle de machine learning composé de couches d'unités de calcul simples, appelées neurones ou nœuds, reliés entre eux par des forces ajustables appelées poids. Chaque neurone reçoit des nombres, les multiplie par des poids, ajoute un biais, puis fait passer le résultat dans une fonction non linéaire. En empilant un grand nombre de ces couches, un réseau de neurones apprend à associer des entrées complexes — comme des pixels, des mots ou des formes d'onde audio — à des sorties telles que des étiquettes de classe, des phrases traduites ou des images générées.

Comment fonctionne un réseau de neurones

Pendant l'entraînement, le réseau reçoit des exemples (par exemple, des milliers de photos étiquetées « chat » ou « chien ») et produit une prédiction. Une fonction de perte mesure à quel point cette prédiction est erronée, et un algorithme appelé rétropropagation calcule la contribution de chaque poids à l'erreur. Un optimiseur, généralement une variante de la descente de gradient, ajuste ensuite légèrement chaque poids pour réduire l'erreur. En répétant ce processus sur de nombreux exemples, les poids du réseau se stabilisent sur des valeurs qui capturent des régularités statistiques utiles dans les données.

La profondeur d'un réseau compte : les premières couches ont tendance à apprendre des caractéristiques simples comme des bords ou des traits de lettres, tandis que les couches plus profondes combinent ces caractéristiques en concepts plus riches comme des formes, des mots ou des objets. Cette hiérarchie de représentations est ce qui rend les réseaux de neurones profonds si efficaces pour les tâches de perception. Une présentation largement citée de l'architecture et de l'algorithme d'apprentissage est disponible dans la revue de Nature de LeCun, Bengio et Hinton (2015) sur l'apprentissage profond.

Pourquoi c'est important

Les réseaux de neurones sont à la base de la plupart des capacités d'IA devenues grand public dans les années 2020, notamment la classification d'images, la reconnaissance vocale, la traduction automatique, les systèmes de recommandation et les grands modèles de langage comme ceux qui alimentent les assistants conversationnels. Ils excellent sur les problèmes où les règles écrites à la main sont fragiles mais où de grandes quantités de données étiquetées ou non étiquetées existent, car la même architecture peut être réentraînée pour de nouveaux domaines avec relativement peu de modifications du code.

Principaux types

  • Réseau de neurones à propagation avant (FNN) : la forme la plus simple ; les signaux circulent dans un seul sens, de l'entrée vers la sortie. Le perceptron multicouche en est l'exemple canonique.
  • Réseau de neurones convolutif (CNN) : utilise des filtres à poids partagés, idéal pour les images et la vidéo.
  • Réseau de neurones récurrent (RNN) : comporte des boucles qui conservent une mémoire des étapes précédentes, adaptées aux séquences comme le texte ou les données de capteurs ; largement remplacé par les transformers pour le langage.
  • Transformer : une architecture moderne basée sur l'attention plutôt que sur la récurrence. C'est l'épine dorsale des grands modèles de langage actuels et de nombreux systèmes de vision.
  • Réseau antagoniste génératif (GAN) : associe un générateur à un discriminateur qui apprend à distinguer les échantillons réels des faux, utilisé pour la synthèse d'images.

Chaque variante réorganise ou spécialise la recette de base « neurones et poids » pour un type particulier de données, mais le principe sous-jacent — apprendre les poids par descente de gradient sur une perte — reste le même.

You might also like

Articles connexes