¿Qué es el aprendizaje zero-shot?

Aprendizaje zero-shot explicado: cómo los modelos reconocen o gestionan clases que nunca han visto durante el entrenamiento y por qué esto es importante para una IA escalable.

HyperStore · Publicado el 2026-06-20

#AI concepts #foundation models #machine learning #transfer learning #zero-shot learning

El aprendizaje zero-shot (ZSL) es un paradigma de aprendizaje automático en el que se espera que un modelo haga predicciones precisas para categorías o tareas que nunca ha visto durante el entrenamiento. En lugar de aprender cada clase nueva a partir de ejemplos etiquetados, el modelo se apoya en información auxiliar —como descripciones de atributos, nombres de clases o instrucciones en lenguaje natural— para generalizar al caso desconocido. Este enfoque se ha vuelto clave en el funcionamiento de los modelos fundacionales modernos, porque permite que un solo modelo gestione miles de tareas sin necesidad de reentrenarlo.

Cómo funciona el aprendizaje zero-shot

La idea central es aprender un espacio semántico compartido en el que puedan representarse tanto las clases vistas como las no vistas. Durante el entrenamiento, el modelo empareja ejemplos etiquetados con información descriptiva (por ejemplo, una imagen etiquetada como "cebra" se empareja con el texto "un animal similar a un caballo con rayas blancas y negras"). Luego aprende a alinear ambas modalidades para que, en el momento de la inferencia, una entrada sin etiqueta pueda asociarse a la descripción textual o de atributos más cercana —incluidas descripciones de clases con las que nunca fue entrenado.

Los grandes modelos de lenguaje y visión-lenguaje como CLIP, GPT y Gemini llevan esta idea aún más lejos. Se entrenan con amplios corpus de datos emparejados de imagen y texto o de instrucción y respuesta, y luego se les indica en la inferencia con una descripción del resultado deseado. Un ejemplo sencillo: ante el prompt "Clasifica esta reseña como positiva, negativa o indiferente", un modelo que nunca se haya ajustado con datos de sentimiento puede aun así dar una respuesta útil, porque el propio lenguaje del prompt aporta las definiciones de clase que faltan. Para un tratamiento más formal, consulta el artículo original de NeurIPS 2009 de Palatucci et al. que ayudó a definir este planteamiento.

Por qué importa

El aprendizaje zero-shot aborda uno de los cuellos de botella más costosos de la IA aplicada: los datos etiquetados. Recopilar y anotar ejemplos para cada nueva clase, idioma o tarea es lento y, a menudo, poco práctico, sobre todo en dominios de cola larga como especies raras, defectos industriales de nicho o idiomas con pocos recursos. Al apoyarse en la estructura compartida aprendida a partir de otros ejemplos, los métodos zero-shot pueden ofrecer un rendimiento útil en estos escenarios sin entrenamiento adicional.

También hace que los productos sean más flexibles. Un único clasificador de imágenes puede orientarse hacia una categoría nueva en tiempo de ejecución cambiando el prompt de texto; un único modelo de traducción puede cambiar de idioma sin reentrenar; y un único asistente puede adoptar nuevas personalidades o formatos bajo demanda. Esta generalidad es una de las razones principales por las que CLIP y modelos de visión-lenguaje similares se han convertido en componentes predeterminados de los pipelines modernos de visión por computador.

Tipos clave

ZSL tradicional basado en atributos: cada clase se describe mediante un vector de atributos elaborado a mano (p. ej., "tiene alas", "vive en el agua") y el modelo aprende a predecir esos atributos para clases no vistas.
ZSL basado en embeddings: las clases se representan como embeddings en un espacio compartido (a menudo a partir de vectores de palabras o modelos de lenguaje), y las clases nuevas se emparejan por similitud con los embeddings de entrada predichos.
ZSL generativo: un modelo generativo sintetiza características artificiales para clases no vistas, convirtiendo de forma efectiva el zero-shot en un problema supervisado estándar.
ZSL basado en prompts con modelos fundacionales: la especificación de la tarea se aporta en lenguaje natural; el modelo interpreta el prompt y responde sin actualizar parámetros.

El aprendizaje zero-shot no es magia —su rendimiento sigue por debajo del de los modelos totalmente supervisados cuando se dispone de muchos datos etiquetados, y puede fallar cuando las descripciones auxiliares son ambiguas o engañosas. Aun así, hoy es una expectativa predeterminada de los grandes sistemas de IA, y la capacidad de generalizar a nuevas tareas solo a partir de instrucciones es un rasgo definitorio de los modelos más capaces del momento.

Cómo funciona el aprendizaje zero-shot

Por qué importa

Tipos clave

También te puede interesar

¿Qué es texto a vídeo?

¿Qué son las barreras de seguridad de la IA?

¿Qué es un grafo de conocimiento?

Artículos relacionados

¿Qué es un LLM de código abierto?

¿Qué son los datos sintéticos?

¿Qué es el sobreajuste?