L'apprentissage few-shot est un paradigme d'apprentissage automatique dans lequel un modèle est censé généraliser à une nouvelle tâche ou classe après n'avoir vu qu'un petit nombre d'exemples étiquetés, souvent aussi peu qu'un (one-shot) ou aucun (zero-shot). Il s'oppose à l'apprentissage supervisé traditionnel, qui nécessite généralement de grands ensembles de données étiquetées pour atteindre de bonnes performances. L'approche est devenue particulièrement importante avec les grands modèles de langage, qui peuvent interpréter des instructions et des exemples fournis directement dans leur prompt d'entrée.
Comment fonctionne l'apprentissage few-shot
La plupart des systèmes modernes d'apprentissage few-shot partent d'un grand modèle pré-entraîné qui a déjà absorbé des connaissances étendues à partir de quantités massives de données. Pour effectuer une nouvelle tâche, le modèle reçoit un petit ensemble de démonstrations dans son entrée, une technique connue sous le nom d'apprentissage en contexte. Par exemple, pour apprendre à un modèle à classer les retours clients comme positifs, négatifs ou neutres, un développeur peut inclure trois exemples étiquetés dans le prompt : « Service excellent ! » → positif, « Réponse lente. » → négatif, et « C'était correct. » → neutre. Le modèle applique ensuite le même schéma à de nouvelles entrées non étiquetées sans aucune mise à jour des poids.
Au-delà du prompting, l'apprentissage few-shot peut également être mis en œuvre par le fine-tuning d'un modèle pré-entraîné sur un petit jeu de données étiqueté, ou en utilisant des approches de méta-apprentissage qui entraînent explicitement un modèle à apprendre rapidement de nouvelles tâches. Dans tous les cas, l'objectif est le même : exploiter les connaissances antérieures pour que quelques exemples suffisent à spécifier un nouveau comportement.
Pourquoi c'est important
L'apprentissage few-shot réduit considérablement le coût et le temps nécessaires pour adapter l'IA à des tâches spécialisées. Dans les domaines où les données étiquetées sont rares, coûteuses ou sensibles, comme le diagnostic médical, la révision juridique ou la traduction de langues rares, collecter des milliers d'exemples est souvent peu réaliste. Les méthodes few-shot rendent possible la création d'applications utiles à partir de quelques exemples soigneusement choisis. Elles permettent également une itération plus rapide, car les équipes peuvent prototyper et affiner les prompts ou les fine-tunings sans attendre de grands projets d'annotation.
Types principaux
- Apprentissage one-shot : le modèle reçoit un seul exemple par classe pour apprendre.
- Apprentissage few-shot (k-shot) : le modèle reçoit un petit nombre, généralement de 2 à 10, d'exemples par classe.
- Apprentissage zero-shot : le modèle effectue la tâche sans aucun exemple, en s'appuyant uniquement sur des instructions ou des descriptions.
- Apprentissage few-shot par prompt : les exemples sont fournis directement dans le prompt d'entrée, comme popularisé par GPT-3 et ses successeurs.
- Méta-apprentissage : le modèle est explicitement entraîné sur de nombreuses tâches apparentées afin qu'il puisse s'adapter à de nouvelles tâches avec un minimum de données, une famille qui inclut des méthodes comme MAML et les réseaux prototypaux.
L'apprentissage few-shot est l'une des capacités déterminantes des modèles de fondation modernes, et il se trouve au cœur de techniques comme l'ingénierie de prompt, la génération augmentée par récupération et le fine-tuning léger tel que LoRA. À mesure que les modèles de base continuent de s'améliorer, le nombre d'exemples nécessaires pour des performances fiables tend à diminuer, rendant la personnalisation de l'IA accessible aux équipes ne disposant pas de pipelines dédiés à l'étiquetage des données.