📖

Qu'est-ce que Apprentissage avec peu d'exemples ?

L'apprentissage few-shot permet aux modèles d'IA de maîtriser de nouvelles tâches à partir de seulement quelques exemples. Découvrez comment il fonctionne, pourquoi il est important et où il est utilisé.

L'apprentissage few-shot est un paradigme d'apprentissage automatique dans lequel un modèle est censé généraliser à une nouvelle tâche ou classe après n'avoir vu qu'un petit nombre d'exemples étiquetés, souvent aussi peu qu'un (one-shot) ou aucun (zero-shot). Il s'oppose à l'apprentissage supervisé traditionnel, qui nécessite généralement de grands ensembles de données étiquetées pour atteindre de bonnes performances. L'approche est devenue particulièrement importante avec les grands modèles de langage, qui peuvent interpréter des instructions et des exemples fournis directement dans leur prompt d'entrée.

Comment fonctionne l'apprentissage few-shot

La plupart des systèmes modernes d'apprentissage few-shot partent d'un grand modèle pré-entraîné qui a déjà absorbé des connaissances étendues à partir de quantités massives de données. Pour effectuer une nouvelle tâche, le modèle reçoit un petit ensemble de démonstrations dans son entrée, une technique connue sous le nom d'apprentissage en contexte. Par exemple, pour apprendre à un modèle à classer les retours clients comme positifs, négatifs ou neutres, un développeur peut inclure trois exemples étiquetés dans le prompt : « Service excellent ! » → positif, « Réponse lente. » → négatif, et « C'était correct. » → neutre. Le modèle applique ensuite le même schéma à de nouvelles entrées non étiquetées sans aucune mise à jour des poids.

Au-delà du prompting, l'apprentissage few-shot peut également être mis en œuvre par le fine-tuning d'un modèle pré-entraîné sur un petit jeu de données étiqueté, ou en utilisant des approches de méta-apprentissage qui entraînent explicitement un modèle à apprendre rapidement de nouvelles tâches. Dans tous les cas, l'objectif est le même : exploiter les connaissances antérieures pour que quelques exemples suffisent à spécifier un nouveau comportement.

Pourquoi c'est important

L'apprentissage few-shot réduit considérablement le coût et le temps nécessaires pour adapter l'IA à des tâches spécialisées. Dans les domaines où les données étiquetées sont rares, coûteuses ou sensibles, comme le diagnostic médical, la révision juridique ou la traduction de langues rares, collecter des milliers d'exemples est souvent peu réaliste. Les méthodes few-shot rendent possible la création d'applications utiles à partir de quelques exemples soigneusement choisis. Elles permettent également une itération plus rapide, car les équipes peuvent prototyper et affiner les prompts ou les fine-tunings sans attendre de grands projets d'annotation.

Types principaux

  • Apprentissage one-shot : le modèle reçoit un seul exemple par classe pour apprendre.
  • Apprentissage few-shot (k-shot) : le modèle reçoit un petit nombre, généralement de 2 à 10, d'exemples par classe.
  • Apprentissage zero-shot : le modèle effectue la tâche sans aucun exemple, en s'appuyant uniquement sur des instructions ou des descriptions.
  • Apprentissage few-shot par prompt : les exemples sont fournis directement dans le prompt d'entrée, comme popularisé par GPT-3 et ses successeurs.
  • Méta-apprentissage : le modèle est explicitement entraîné sur de nombreuses tâches apparentées afin qu'il puisse s'adapter à de nouvelles tâches avec un minimum de données, une famille qui inclut des méthodes comme MAML et les réseaux prototypaux.

L'apprentissage few-shot est l'une des capacités déterminantes des modèles de fondation modernes, et il se trouve au cœur de techniques comme l'ingénierie de prompt, la génération augmentée par récupération et le fine-tuning léger tel que LoRA. À mesure que les modèles de base continuent de s'améliorer, le nombre d'exemples nécessaires pour des performances fiables tend à diminuer, rendant la personnalisation de l'IA accessible aux équipes ne disposant pas de pipelines dédiés à l'étiquetage des données.

Questions fréquemment posées

How is few-shot learning different from transfer learning?
Transfer learning is the broader practice of reusing knowledge from one task to help with another, usually by fine-tuning a pre-trained model. Few-shot learning is a specific goal within that umbrella: succeeding at a new task when only a handful of examples are available. Many few-shot systems use transfer learning, but the defining feature is the small data size, not the transfer mechanism itself.
What is the difference between few-shot and zero-shot learning?
Zero-shot learning requires the model to perform a task with no examples at all, relying on instructions, task descriptions, or general world knowledge. Few-shot learning provides a small number of demonstrations, typically 1 to 10, so the model can infer the desired pattern. Zero-shot is more demanding of the base model's reasoning ability, while few-shot tends to be more reliable for narrow or unusual tasks.
How many examples do you need for few-shot learning?
There is no fixed number, but few-shot learning generally uses between 1 and about 10 labeled examples per class, often provided directly in the prompt. More examples usually improve performance up to a point, after which the model's context window or diminishing returns set in. The exact sweet spot depends on the task, the base model, and the quality of the examples.
Is few-shot learning the same as prompt engineering?
Not exactly. Prompt engineering is the practice of crafting inputs to get the best results from a model, and it often includes adding few-shot examples as part of the prompt. Few-shot learning is the broader capability of learning from a few examples, which can be exercised through prompt engineering, fine-tuning, or meta-learning. They overlap heavily in practice but are distinct concepts.