La IA generativa es una clase de modelos de inteligencia artificial que crean contenido nuevo —como texto, imágenes, audio, vídeo o código— en lugar de limitarse a clasificar o predecir a partir de datos existentes. Aprende los patrones y la estructura de su material de entrenamiento y utiliza ese conocimiento para generar resultados originales en respuesta a un prompt. El término abarca una amplia familia de técnicas, desde los grandes modelos de lenguaje basados en transformeres que impulsan los chatbots hasta los modelos de difusión que hacen funcionar los sistemas de texto a imagen.
Cómo funciona la IA generativa
A grandes rasgos, un modelo generativo se entrena con un gran corpus de ejemplos (libros y código para texto, imágenes con descripciones para visión, transcripciones y formas de onda para voz) y aprende los patrones estadísticos que conectan las entradas con las salidas. Durante el entrenamiento, el modelo ajusta una y otra vez sus parámetros internos para que sus predicciones se ajusten a la realidad, un proceso que puede requerir miles de millones de ejemplos y una capacidad de cálculo enorme. Una vez entrenado, el modelo recibe un prompt y genera un nuevo artefacto pieza a pieza: un gran modelo de lenguaje predice el siguiente token (aproximadamente, una palabra o fragmento de palabra) dado todo lo anterior, mientras que un modelo de difusión refina iterativamente ruido aleatorio hasta convertirlo en una imagen coherente guiada por una descripción de texto.
Por ejemplo, ante el prompt "un haiku sobre el tráfico matinal en Tokio", un modelo de texto muestreará una primera palabra probable, luego condicionará su siguiente elección a las palabras que ya ha producido, y así sucesivamente hasta que el poema se sienta completo. El resultado no se recupera de una base de datos; se calcula sobre la marcha a partir de patrones aprendidos, por lo que dos ejecuciones del mismo prompt pueden producir resultados diferentes, pero igualmente plausibles.
Por qué importa
La IA generativa está cambiando la forma en que las personas y las organizaciones crean, se comunican y trabajan. Redacta correos electrónicos, resume documentos, escribe y explica código, diseña maquetas de productos, compone música y acelera la investigación científica al proponer moléculas y estructuras de proteínas. Como un único modelo puede abordar muchas tareas expresadas en lenguaje natural, reduce el coste de producir primeros borradores y pone una asistencia sofisticada al alcance de los no especialistas. Al mismo tiempo, plantea cuestiones complejas sobre autoría, derechos de autor, alucinaciones, sesgos y la huella energética de los grandes entrenamientos, preocupaciones todas ellas centrales hoy para desarrolladores, reguladores y usuarios finales.
Tipos clave de modelos generativos
- Grandes modelos de lenguaje (LLM) — modelos basados en transformeres, como los de las familias GPT, Claude y Llama, que generan texto y, cada vez más, interpretan imágenes y audio.
- Modelos de difusión — la arquitectura detrás de la mayoría de los sistemas modernos de texto a imagen y de texto a vídeo, incluidos Stable Diffusion, DALL·E e Imagen.
- Redes generativas adversariales (GAN) — un enfoque más antiguo pero todavía influyente, en el que un generador y un discriminador se entrenan mutuamente, muy utilizado para síntesis de imágenes y transferencia de estilo.
- Variantes autorregresivas y basadas en transformeres para audio y código — modelos que generan voz, música o código fuente token a token, como los sistemas estilo Codex y los modelos de generación musical.
En resumen, la IA generativa no es tanto un único producto como una nueva forma de construir software: en lugar de programar reglas explícitas, los desarrolladores lanzan prompts a un modelo entrenado y orientan su salida. A medida que los modelos subyacentes se vuelven más capaces y están mejor alineados con la intención humana, su alcance sigue expandiéndose por prácticamente todos los ámbitos del trabajo creativo e intelectual.