What is the difference between zero-shot and few-shot learning?

Zero-shot learning makes predictions for unseen classes with no examples at all, relying on descriptions or prompts. Few-shot learning provides a small number of labeled examples — typically one to ten — so the model can adapt its behavior. Few-shot usually outperforms zero-shot on the same task, at the cost of requiring some labeled data.

Is ChatGPT an example of zero-shot learning?

Yes. When a user gives ChatGPT a task it was never explicitly trained on, such as rewriting text in a specific style or classifying an unusual list, the model is performing zero-shot generalization. It interprets the natural-language instruction and produces a response using only the patterns learned during pre-training.

What are the main limitations of zero-shot learning?

Zero-shot models depend heavily on the quality of the auxiliary descriptions or prompts they receive. They also tend to be less accurate than supervised models when plenty of labeled data is available, and they can be biased toward classes they have seen during training — a problem known as the hubness or bias problem. Domain shift between training and deployment settings can further degrade performance.

How is zero-shot learning evaluated?

Models are typically evaluated on a held-out set of classes that never appear in training, measuring metrics like top-1 or top-5 accuracy against the unseen-class labels. Standard benchmarks include UCF101, ImageNet-21K splits, and a range of text classification and question-answering suites used in NLP research.

O que é a Aprendizagem Zero-Shot? Explicação

A aprendizagem zero-shot (ZSL) é um paradigma de machine learning em que se espera que um modelo faça previsões precisas para categorias ou tarefas que nunca viu durante o treino. Em vez de aprender cada nova classe a partir de exemplos rotulados, o modelo apoia-se em informação auxiliar — como descrições de atributos, nomes de classes ou instruções em linguagem natural — para generalizar para o caso desconhecido. Esta abordagem tornou-se central no modo como os modernos modelos foundation operam, porque permite que um único modelo lide com milhares de tarefas sem necessidade de reentreino.

Como Funciona a Aprendizagem Zero-Shot

A ideia central é aprender um espaço semântico partilhado no qual tanto as classes vistas como as não vistas possam ser representadas. Durante o treino, o modelo associa exemplos rotulados a informação descritiva (por exemplo, uma imagem rotulada como "zebra" é associada ao texto "um animal semelhante a um cavalo com riscas pretas e brancas"). Em seguida, aprende a alinhar as duas modalidades para que, no momento da inferência, uma entrada sem rótulo possa ser correspondida com a descrição textual ou de atributos mais próxima — incluindo descrições de classes com as quais nunca foi treinado.

Modelos de linguagem e visão-linguagem de grande dimensão, como o CLIP, o GPT e o Gemini, levam esta ideia ainda mais longe. São treinados em corpora vastos de dados emparelhados de imagem-e-texto ou instrução-e-resposta, e depois recebem, na inferência, um prompt com uma descrição do resultado pretendido. Um exemplo simples: dado o prompt "Classifica esta crítica como positiva, negativa ou indiferente", um modelo que nunca foi fine-tuned em dados de sentimento consegue, ainda assim, produzir uma resposta útil, porque a própria linguagem do prompt fornece as definições de classe em falta. Para um tratamento mais formal, consulte o artigo original da NeurIPS 2009 de Palatucci et al. que ajudou a definir este cenário.

Porque é que é Importante

A aprendizagem zero-shot aborda um dos estrangulamentos mais dispendiosos da IA aplicada: os dados rotulados. Recolher e anotar exemplos para cada nova classe, língua ou tarefa é lento e, muitas vezes, impraticável, sobretudo em domínios de cauda longa, como espécies raras, defeitos industriais de nicho ou línguas com poucos recursos. Ao recorrer à estrutura partilhada aprendida a partir de outros exemplos, os métodos zero-shot conseguem entregar um desempenho utilizável nestes contextos sem treino adicional.

Também torna os produtos mais flexíveis. Um único classificador de imagens pode ser direcionado para uma nova categoria em tempo de execução, bastando alterar o prompt de texto; um único modelo de tradução pode mudar de língua sem reentreino; e um único assistente pode adotar novas personas ou formatos a pedido. Esta generalidade é uma das principais razões pelas quais o CLIP e modelos visão-linguagem semelhantes se tornaram componentes padrão nos pipelines modernos de visão computacional.

Tipos Principais

ZSL tradicional baseada em atributos: Cada classe é descrita por um vetor de atributos definido manualmente (por exemplo, "tem asas", "vive na água"), e o modelo aprende a prever esses atributos para classes não vistas.
ZSL baseada em embeddings: As classes são representadas como embeddings num espaço partilhado (muitas vezes a partir de word vectors ou modelos de linguagem), e as novas classes são correspondidas por similaridade com os embeddings previstos para a entrada.
ZSL generativa: Um modelo generativo sintetiza features artificiais para classes não vistas, convertendo efetivamente o cenário zero-shot num problema supervisionado padrão.
ZSL baseada em prompts com modelos foundation: A especificação da tarefa é entregue em linguagem natural; o modelo interpreta o prompt e responde sem qualquer atualização de parâmetros.

A aprendizagem zero-shot não é magia — o seu desempenho continua atrás dos modelos totalmente supervisionados quando existe abundância de dados rotulados, e pode falhar quando as descrições auxiliares são ambíguas ou enganadoras. Ainda assim, é hoje uma expectativa padrão para os grandes sistemas de IA, e a capacidade de generalizar para novas tarefas apenas a partir de instruções é uma característica definidora dos modelos mais capazes da atualidade.

O que é Aprendizagem Zero-Shot?

Como Funciona a Aprendizagem Zero-Shot

Porque é que é Importante

Tipos Principais

Perguntas Frequentes