Qu'est-ce qu'un embedding ?

Un embedding est une représentation numérique de données — le plus souvent du texte, mais aussi des images, de l'audio ou le comportement d'un utilisateur — sous forme de point (un vecteur de nombres réels) dans un espace de grande dimension, créé de sorte que des éléments sémantiquement similaires se retrouvent à proximité. Les embeddings permettent aux modèles de machine learning de mesurer la similarité, de trouver des voisins et

Un embedding est une façon de transformer des informations — mots, phrases, images, extraits audio ou même historiques de clics d'utilisateurs — en une liste de nombres appelée vecteur. La liste comporte généralement de quelques centaines à quelques milliers de nombres, et chaque nombre est une caractéristique apprise qui capture une certaine propriété de l'entrée. L'idée clé est que le modèle est entraîné de sorte que des éléments ayant un sens similaire aboutissent à des vecteurs similaires, et que des éléments sans rapport se retrouvent éloignés.

Comme chaque entrée devient un point dans le même espace mathématique, les ordinateurs peuvent enfin faire des choses comme additionner, soustraire et mesurer la distance entre des sens au lieu de simplement faire correspondre des lettres. C'est pourquoi les embeddings sont l'épine dorsale de la recherche sémantique moderne, de la génération augmentée par récupération (RAG), des systèmes de recommandation, du clustering et de la classification.

Comment fonctionnent les embeddings

Sous le capot, un embedding est produit par un réseau de neurones appelé encodeur. Pendant l'entraînement, le modèle voit d'énormes quantités de données et ajuste ses poids de sorte que des entrées apparaissant dans des contextes similaires (par exemple, les mots roi et reine, ou une photo d'un golden retriever et la légende « yellow dog ») soient mappées à des vecteurs qui pointent dans des directions similaires. Les coordonnées résultantes ne sont pas conçues à la main ; elles émergent de l'objectif du modèle consistant à prédire des voisins, des mots masqués ou des éléments liés.

Une façon simple de se représenter cela : imaginez une carte 3D des mots. Après l'entraînement, roi, reine, prince et princesse forment un cluster ; chat, chien et hamster en forment un autre ; et heureux, joyeux et ravi en forment un troisième. Les embeddings réels vivent dans des dimensions bien plus élevées (souvent 768, 1 536 ou 3 072), mais le principe est identique — la proximité dans l'espace vectoriel correspond à la similarité sémantique, généralement mesurée par la similarité cosinus ou la distance euclidienne. Pour en savoir plus sur la façon dont cela est entraîné, consultez l'article original sur word2vec de Mikolov et al. et le guide des embeddings d'OpenAI.

Pourquoi les embeddings sont importants

Les embeddings transforment des données désordonnées et non structurées en une forme que les algorithmes peuvent traiter efficacement. Un moteur de recherche peut classer des documents par sens plutôt que par correspondance exacte de mots-clés, si bien qu'une requête comme « comment réparer un robinet qui fuit » peut correspondre à un article intitulé « repairing a dripping tap ». Un système de recommandation peut trouver des produits similaires à celui qu'un utilisateur vient de parcourir, même lorsque le catalogue n'a aucun tag partagé. Et dans la génération augmentée par récupération (RAG), un LLM ancre ses réponses dans des documents privés ou à jour en récupérant les morceaux dont les embeddings sont les plus proches de la question de l'utilisateur.

La même astuce fonctionne pour les images (modèles de type CLIP), l'audio, le code et les enregistrements structurés, c'est pourquoi les embeddings sont devenus un format d'échange universel entre les données et l'IA.

Principaux types d'embeddings

  • Embeddings de mots — vecteurs fixes par mot, comme dans word2vec et GloVe.
  • Embeddings de phrases et de documents — un vecteur par passage, produit par des modèles tels que Sentence-BERT et text-embedding-3 d'OpenAI.
  • Embeddings d'images — vecteurs issus d'encodeurs de vision comme CLIP, ResNet ou DINOv2, permettant la recherche multimodale.
  • Embeddings multimodaux — espaces partagés où texte, images et audio cohabitent, de sorte qu'une photo peut être retrouvée à partir d'une légende et inversement.
  • Embeddings de graphes et d'entités — vecteurs pour les nœuds dans les graphes de connaissances, utilisés en recommandation et détection de fraude.

Une fois que vous avez des embeddings, vous les stockez généralement dans une base de données vectorielle telle que Pinecone, Weaviate, Milvus ou pgvector, et vous l'interrogez avec la recherche par k plus proches voisins (k-NN) ou approximation des plus proches voisins (ANN) pour trouver les correspondances les plus proches à grande échelle.

Les embeddings sont la discrète bête de somme de l'IA contemporaine : en traduisant le sens en géométrie, ils permettent aux machines de comparer, récupérer et raisonner sur le monde d'une manière qui était peu pratique avant que le deep learning ne rende les représentations vectorielles à la fois peu coûteuses et remarquablement précises.

You might also like

Articles connexes