What is the difference between a neural network and deep learning?

A neural network is the underlying model: layers of weighted, interconnected neurons that transform inputs into outputs. Deep learning refers to training neural networks with many layers (typically dozens or more) so they can learn hierarchical representations. In practice, deep learning almost always means deep neural networks, but not every neural network is "deep."

Do neural networks really work like the human brain?

Only loosely. Real biological neurons fire electrochemical spikes, encode information with timing, and are embedded in complex circuitry that current artificial networks do not replicate. Neural networks borrow the high-level idea of many simple units learning from experience, but they are best understood as a mathematical function approximator optimized with gradient descent.

How much data does a neural network need to learn well?

It depends on the task, architecture, and whether you use a pre-trained model. Simple feedforward networks can converge on toy problems with hundreds of examples. State-of-the-art language and vision models are typically trained on billions of tokens or images, often using self-supervised pre-training followed by fine-tuning on smaller labeled datasets.

Can neural networks be wrong even when they are confident?

Yes. A model's predicted probability reflects patterns it has learned, not ground truth, so it can be confidently wrong on out-of-distribution inputs, adversarial examples, or rare edge cases. Calibration, evaluation on diverse test sets, and human-in-the-loop review are common ways to mitigate this.

Qu'est-ce qu'un réseau de neurones ?

Un réseau de neurones est un type de modèle de machine learning composé de couches d'unités de calcul simples, appelées neurones ou nœuds, reliés entre eux par des forces ajustables appelées poids. Chaque neurone reçoit des nombres, les multiplie par des poids, ajoute un biais, puis fait passer le résultat dans une fonction non linéaire. En empilant un grand nombre de ces couches, un réseau de neurones apprend à associer des entrées complexes — comme des pixels, des mots ou des formes d'onde audio — à des sorties telles que des étiquettes de classe, des phrases traduites ou des images générées.

Comment fonctionne un réseau de neurones

Pendant l'entraînement, le réseau reçoit des exemples (par exemple, des milliers de photos étiquetées « chat » ou « chien ») et produit une prédiction. Une fonction de perte mesure à quel point cette prédiction est erronée, et un algorithme appelé rétropropagation calcule la contribution de chaque poids à l'erreur. Un optimiseur, généralement une variante de la descente de gradient, ajuste ensuite légèrement chaque poids pour réduire l'erreur. En répétant ce processus sur de nombreux exemples, les poids du réseau se stabilisent sur des valeurs qui capturent des régularités statistiques utiles dans les données.

La profondeur d'un réseau compte : les premières couches ont tendance à apprendre des caractéristiques simples comme des bords ou des traits de lettres, tandis que les couches plus profondes combinent ces caractéristiques en concepts plus riches comme des formes, des mots ou des objets. Cette hiérarchie de représentations est ce qui rend les réseaux de neurones profonds si efficaces pour les tâches de perception. Une présentation largement citée de l'architecture et de l'algorithme d'apprentissage est disponible dans la revue de Nature de LeCun, Bengio et Hinton (2015) sur l'apprentissage profond.

Pourquoi c'est important

Les réseaux de neurones sont à la base de la plupart des capacités d'IA devenues grand public dans les années 2020, notamment la classification d'images, la reconnaissance vocale, la traduction automatique, les systèmes de recommandation et les grands modèles de langage comme ceux qui alimentent les assistants conversationnels. Ils excellent sur les problèmes où les règles écrites à la main sont fragiles mais où de grandes quantités de données étiquetées ou non étiquetées existent, car la même architecture peut être réentraînée pour de nouveaux domaines avec relativement peu de modifications du code.

Principaux types

Réseau de neurones à propagation avant (FNN) : la forme la plus simple ; les signaux circulent dans un seul sens, de l'entrée vers la sortie. Le perceptron multicouche en est l'exemple canonique.
Réseau de neurones convolutif (CNN) : utilise des filtres à poids partagés, idéal pour les images et la vidéo.
Réseau de neurones récurrent (RNN) : comporte des boucles qui conservent une mémoire des étapes précédentes, adaptées aux séquences comme le texte ou les données de capteurs ; largement remplacé par les transformers pour le langage.
Transformer : une architecture moderne basée sur l'attention plutôt que sur la récurrence. C'est l'épine dorsale des grands modèles de langage actuels et de nombreux systèmes de vision.
Réseau antagoniste génératif (GAN) : associe un générateur à un discriminateur qui apprend à distinguer les échantillons réels des faux, utilisé pour la synthèse d'images.

Chaque variante réorganise ou spécialise la recette de base « neurones et poids » pour un type particulier de données, mais le principe sous-jacent — apprendre les poids par descente de gradient sur une perte — reste le même.

Qu'est-ce que Neural Network ?

Comment fonctionne un réseau de neurones

Pourquoi c'est important

Principaux types

Frequently Asked Questions