What is the difference between training data and test data?

Training data is the examples a model learns from during the training phase. Test data is a separate, held-out set used only after training to estimate how the model performs on unseen inputs. Keeping the two strictly separate is essential; reusing test data for training produces overly optimistic results that do not reflect real-world performance.

How much training data does a machine learning model need?

It depends on the task and the model. Simple classifiers can perform well with a few thousand labeled examples, while modern large language models are trained on trillions of words. The more relevant and well-labeled the data is, the less of it is typically needed to reach a given level of accuracy.

Can AI be trained without labeled data?

Yes. Unsupervised and self-supervised learning use raw, unlabeled inputs, and most foundation models are first pretrained this way on large text or image corpora. Labels are then often added in a second, smaller fine-tuning stage to specialize the model for a specific task.

Why is training data quality more important than quantity?

Models learn what their data teaches, so noisy, biased, or mislabeled examples teach the wrong patterns. A smaller, carefully curated dataset often outperforms a larger, messier one, which is why data cleaning, deduplication, and balanced sampling are central to modern AI development.

Que sont les données d'entraînement ?

Les données d'entraînement sont l'ensemble des exemples qu'un modèle d'apprentissage automatique étudie afin d'apprendre une tâche. Chaque exemple associe généralement une entrée à une sortie attendue, comme un e-mail associé à une étiquette « spam » ou « non spam », une phrase associée à sa langue, ou une image associée à l'objet qu'elle contient. Pendant l'entraînement, le modèle ajuste ses paramètres internes pour que ses prédictions correspondent aux patterns présents dans les données ; le jeu de données définit ainsi concrètement ce que le modèle va (et ne va pas) apprendre à faire.

Comment fonctionnent les données d'entraînement

Dans le supervisé, le cadre le plus courant, chaque exemple est annoté avec une réponse correcte. Un jeu de données d'avis sur des produits, par exemple, peut être étiqueté « positif » ou « négatif », et le modèle apprend à associer de nouveaux avis à ces catégories en repérant les régularités statistiques qui les distinguent. Les données sont réparties en un jeu d'entraînement utilisé pour ajuster le modèle, un jeu de validation utilisé pour le régler, et un jeu de test mis de côté pour estimer les performances du modèle sur des exemples qu'il n'a jamais vus.

D'autres paradigmes s'appuient sur des formes de données différentes. Le non supervisé utilise des entrées brutes sans étiquettes, souvent pour découvrir une structure comme des groupes ou des thématiques. Le auto-supervisé génère les étiquettes à partir des données elles-mêmes — c'est ainsi que la plupart des grands modèles de langage sont pré-entraînés sur d'immenses corpus de texte. L'échelle, l'équilibre et la représentativité du jeu de données influencent directement ce à quoi le modèle pourra se généraliser.

Pourquoi c'est important

Les données d'entraînement sont le premier facteur déterminant du comportement d'un modèle, souvent plus que le choix de l'algorithme. Si les données sont biaisées, peu fournies ou non représentatives, le modèle reproduira, voire amplifiera, ces défauts. Les enjeux de confidentialité, de droit d'auteur et de consentement se logent aussi dans la couche des données, car un modèle peut mémoriser et restituer des extraits sensibles de son jeu d'entraînement. Pour ces raisons, la curation, la documentation et l'évaluation des données sont devenues des étapes à part entière du développement responsable d'une IA.

Principaux types de données d'entraînement

Données étiquetées — chaque exemple comporte une annotation fournie par un humain ou générée par une machine, utilisé pour des tâches supervisées comme la classification et la détection.
Données non étiquetées — entrées brutes sans annotation, utilisées pour le pré-entraînement non supervisé et auto-supervisé.
Données synthétiques — exemples générés par des simulateurs ou d'autres modèles, utiles lorsque les données réelles sont rares ou sensibles.
Données d'instruction et de préférence — prompts associés à des réponses idéales, ou paires de sorties classées selon leur qualité, utilisées pour aligner les modèles sur l'intention humaine.
Benchmarks d'évaluation — jeux de tests sélectionnés qui mesurent les capacités, sans toutefois servir à ajuster les paramètres du modèle.

Pour un traitement plus approfondi de la construction des jeux de données et de son impact, le chapitre « Data Quality » du livre Data-Centric AI et les classements Papers with Code sont d'excellents points de départ.

Qu'est-ce que Données d'entraînement ?

Comment fonctionnent les données d'entraînement

Pourquoi c'est important

Principaux types de données d'entraînement

Questions fréquemment posées