📖

¿Qué es Aprendizaje sin ejemplos?

Aprendizaje zero-shot explicado: cómo los modelos reconocen o gestionan clases que nunca han visto durante el entrenamiento y por qué esto es importante para una IA escalable.

El aprendizaje zero-shot (ZSL) es un paradigma de aprendizaje automático en el que se espera que un modelo haga predicciones precisas para categorías o tareas que nunca ha visto durante el entrenamiento. En lugar de aprender cada clase nueva a partir de ejemplos etiquetados, el modelo se apoya en información auxiliar —como descripciones de atributos, nombres de clases o instrucciones en lenguaje natural— para generalizar al caso desconocido. Este enfoque se ha vuelto clave en el funcionamiento de los modelos fundacionales modernos, porque permite que un solo modelo gestione miles de tareas sin necesidad de reentrenarlo.

Cómo funciona el aprendizaje zero-shot

La idea central es aprender un espacio semántico compartido en el que puedan representarse tanto las clases vistas como las no vistas. Durante el entrenamiento, el modelo empareja ejemplos etiquetados con información descriptiva (por ejemplo, una imagen etiquetada como "cebra" se empareja con el texto "un animal similar a un caballo con rayas blancas y negras"). Luego aprende a alinear ambas modalidades para que, en el momento de la inferencia, una entrada sin etiqueta pueda asociarse a la descripción textual o de atributos más cercana —incluidas descripciones de clases con las que nunca fue entrenado.

Los grandes modelos de lenguaje y visión-lenguaje como CLIP, GPT y Gemini llevan esta idea aún más lejos. Se entrenan con amplios corpus de datos emparejados de imagen y texto o de instrucción y respuesta, y luego se les indica en la inferencia con una descripción del resultado deseado. Un ejemplo sencillo: ante el prompt "Clasifica esta reseña como positiva, negativa o indiferente", un modelo que nunca se haya ajustado con datos de sentimiento puede aun así dar una respuesta útil, porque el propio lenguaje del prompt aporta las definiciones de clase que faltan. Para un tratamiento más formal, consulta el artículo original de NeurIPS 2009 de Palatucci et al. que ayudó a definir este planteamiento.

Por qué importa

El aprendizaje zero-shot aborda uno de los cuellos de botella más costosos de la IA aplicada: los datos etiquetados. Recopilar y anotar ejemplos para cada nueva clase, idioma o tarea es lento y, a menudo, poco práctico, sobre todo en dominios de cola larga como especies raras, defectos industriales de nicho o idiomas con pocos recursos. Al apoyarse en la estructura compartida aprendida a partir de otros ejemplos, los métodos zero-shot pueden ofrecer un rendimiento útil en estos escenarios sin entrenamiento adicional.

También hace que los productos sean más flexibles. Un único clasificador de imágenes puede orientarse hacia una categoría nueva en tiempo de ejecución cambiando el prompt de texto; un único modelo de traducción puede cambiar de idioma sin reentrenar; y un único asistente puede adoptar nuevas personalidades o formatos bajo demanda. Esta generalidad es una de las razones principales por las que CLIP y modelos de visión-lenguaje similares se han convertido en componentes predeterminados de los pipelines modernos de visión por computador.

Tipos clave

  • ZSL tradicional basado en atributos: cada clase se describe mediante un vector de atributos elaborado a mano (p. ej., "tiene alas", "vive en el agua") y el modelo aprende a predecir esos atributos para clases no vistas.
  • ZSL basado en embeddings: las clases se representan como embeddings en un espacio compartido (a menudo a partir de vectores de palabras o modelos de lenguaje), y las clases nuevas se emparejan por similitud con los embeddings de entrada predichos.
  • ZSL generativo: un modelo generativo sintetiza características artificiales para clases no vistas, convirtiendo de forma efectiva el zero-shot en un problema supervisado estándar.
  • ZSL basado en prompts con modelos fundacionales: la especificación de la tarea se aporta en lenguaje natural; el modelo interpreta el prompt y responde sin actualizar parámetros.

El aprendizaje zero-shot no es magia —su rendimiento sigue por debajo del de los modelos totalmente supervisados cuando se dispone de muchos datos etiquetados, y puede fallar cuando las descripciones auxiliares son ambiguas o engañosas. Aun así, hoy es una expectativa predeterminada de los grandes sistemas de IA, y la capacidad de generalizar a nuevas tareas solo a partir de instrucciones es un rasgo definitorio de los modelos más capaces del momento.

Preguntas frecuentes

What is the difference between zero-shot and few-shot learning?
Zero-shot learning makes predictions for unseen classes with no examples at all, relying on descriptions or prompts. Few-shot learning provides a small number of labeled examples — typically one to ten — so the model can adapt its behavior. Few-shot usually outperforms zero-shot on the same task, at the cost of requiring some labeled data.
Is ChatGPT an example of zero-shot learning?
Yes. When a user gives ChatGPT a task it was never explicitly trained on, such as rewriting text in a specific style or classifying an unusual list, the model is performing zero-shot generalization. It interprets the natural-language instruction and produces a response using only the patterns learned during pre-training.
What are the main limitations of zero-shot learning?
Zero-shot models depend heavily on the quality of the auxiliary descriptions or prompts they receive. They also tend to be less accurate than supervised models when plenty of labeled data is available, and they can be biased toward classes they have seen during training — a problem known as the hubness or bias problem. Domain shift between training and deployment settings can further degrade performance.
How is zero-shot learning evaluated?
Models are typically evaluated on a held-out set of classes that never appear in training, measuring metrics like top-1 or top-5 accuracy against the unseen-class labels. Standard benchmarks include UCF101, ImageNet-21K splits, and a range of text classification and question-answering suites used in NLP research.