Um embedding é uma forma de converter informação — palavras, frases, imagens, clipes de áudio ou até históricos de cliques de utilizadores — numa lista de números chamada vetor. A lista tem normalmente entre algumas centenas e alguns milhares de números, e cada número é uma característica aprendida que capta alguma propriedade da entrada. A ideia-chave é que o modelo é treinado para que itens com significado semelhante acabem com vetores semelhantes, e itens sem relação acabem afastados.
Como cada entrada se torna um ponto no mesmo espaço matemático, os computadores podem finalmente fazer coisas como somar, subtrair e medir distâncias entre significados em vez de apenas comparar letras. É por isso que os embeddings são a espinha dorsal da pesquisa semântica moderna, da geração aumentada por recuperação (RAG), dos sistemas de recomendação, do clustering e da classificação.
Como funcionam os embeddings
Por baixo, um embedding é produzido por uma rede neuronal chamada encoder. Durante o treino, o modelo vê enormes quantidades de dados e ajusta os seus pesos para que entradas que aparecem em contextos semelhantes (por exemplo, as palavras king e queen, ou uma foto de um golden retriever e a legenda "yellow dog") sejam mapeadas para vetores que apontam em direções semelhantes. As coordenadas resultantes não são desenhadas à mão; emergem do objetivo do modelo de prever vizinhos, palavras mascaradas ou itens relacionados.
Uma forma simples de visualizar isto: imagine um mapa 3-D de palavras. Após o treino, king, queen, prince e princess formam um grupo; cat, dog e hamster formam outro; e happy, joyful e elated formam um terceiro. Os embeddings reais vivem em dimensões muito mais altas (frequentemente 768, 1.536 ou 3.072), mas o princípio é idêntico — a proximidade no espaço vetorial corresponde à similaridade semântica, geralmente medida com similaridade do cosseno ou distância euclidiana. Para saber mais sobre como isto é treinado, veja o artigo original do word2vec de Mikolov et al. e o guia de embeddings da OpenAI.
Porque é que os embeddings são importantes
Os embeddings transformam dados confusos e não estruturados numa forma sobre a qual os algoritmos podem raciocinar de forma eficiente. Um motor de busca pode classificar documentos pelo significado em vez de pela correspondência exata de palavras-chave, pelo que uma pesquisa por "how to fix a leaky faucet" pode corresponder a um artigo intitulado "repairing a dripping tap". Um sistema de recomendação pode encontrar produtos semelhantes ao que um utilizador acabou de ver, mesmo quando o catálogo não tem etiquetas partilhadas. E na geração aumentada por recuperação (RAG), um LLM fundamenta as suas respostas em documentos privados ou atualizados, recuperando os fragmentos cujos embeddings estão mais próximos da pergunta do utilizador.
O mesmo truque funciona para imagens (modelos do estilo CLIP), áudio, código e registos estruturados, e é por isso que os embeddings se tornaram um formato de intercâmbio universal entre dados e IA.
Principais tipos de embeddings
- Word embeddings — vetores fixos por palavra, como em word2vec e GloVe.
- Sentence and document embeddings — um vetor por passagem, produzido por modelos como Sentence-BERT e o
text-embedding-3da OpenAI. - Image embeddings — vetores de encoders de visão como CLIP, ResNet ou DINOv2, que permitem pesquisa cross-modal.
- Multimodal embeddings — espaços partilhados onde texto, imagens e áudio coexistem, para que uma foto possa ser recuperada com uma legenda e vice-versa.
- Graph and entity embeddings — vetores para nós em grafos de conhecimento, usados em recomendação e deteção de fraude.
Depois de ter embeddings, normalmente armazena-os numa base de dados vetorial como Pinecone, Weaviate, Milvus ou pgvector, e interroga-a com pesquisa de k-vizinhos mais próximos (k-NN) ou vizinhos mais próximos aproximados (ANN) para encontrar as correspondências mais próximas à escala.
Os embeddings são o silencioso cavalo de batalha da IA contemporânea: ao traduzir significado em geometria, permitem que as máquinas comparem, recuperem e raciocinem sobre o mundo de formas que eram impraticáveis antes de o deep learning tornar as representações vetoriais acessíveis e notavelmente precisas.