How is fine-tuning different from prompt engineering?

Prompt engineering steers a model's behavior at inference time by changing only the input text, without altering the model itself. Fine-tuning actually updates the model's weights by running additional training on a curated dataset. Prompting is faster and cheaper; fine-tuning is more powerful when the desired behavior must be applied consistently across many queries or when it depends on patterns the base model doesn't reliably produce.

How much data do you need to fine-tune a model?

It depends on the task and the method. Full fine-tuning of a large model can require thousands to tens of thousands of high-quality examples. Parameter-efficient methods like LoRA can produce useful results with a few hundred well-chosen examples, especially when the base model already has strong general capabilities. Data quality consistently matters more than raw quantity.

What is LoRA fine-tuning?

LoRA (Low-Rank Adaptation) is a parameter-efficient fine-tuning method that freezes the original model weights and trains only small, low-rank matrices added to each layer. This typically reduces the trainable parameters by more than 90%, making fine-tuning feasible on a single GPU and producing adapters that are only a few megabytes in size.

Does fine-tuning make a model forget what it already knows?

It can. Known as catastrophic forgetting, this happens when fine-tuning on a narrow dataset overwrites earlier capabilities. Practitioners mitigate it by mixing in general-domain data, using a low learning rate, limiting training epochs, and evaluating the model on both the new task and a broader benchmark suite before deployment.

¿Qué es el fine-tuning? | Glosario de HyperStore

El fine-tuning es la práctica de tomar un modelo que ya ha sido entrenado con un amplio corpus de datos —a menudo un modelo de lenguaje grande como uno de la familia GPT o LLaMA— y continuar ese entrenamiento con un conjunto de datos más pequeño y cuidadosamente seleccionado. El objetivo es orientar el modelo hacia un comportamiento más concreto: responder preguntas médicas, escribir con una voz de marca específica, generar código en un framework particular o seguir de forma fiable un formato de salida estructurado.

A diferencia del entrenamiento desde cero, el fine-tuning parte de representaciones aprendidas en lugar de pesos aleatorios. Como la mayor parte del trabajo de aprender gramática, razonamiento y conocimiento del mundo ya se ha realizado, el fine-tuning suele necesitar varios órdenes de magnitud menos datos y cómputo para producir mejoras significativas en una tarea objetivo.

Cómo funciona el fine-tuning

En la práctica, los ingenieros preparan un conjunto de datos de ejemplos de entradas y salidas deseadas que representan el comportamiento que quieren que muestre el modelo. Para un asistente de atención al cliente, podrían ser cientos o miles de resoluciones de tickets anteriores; para una herramienta de revisión de código, podrían ser pares de pull requests y comentarios de revisores. El modelo preentrenado ejecuta entonces pasadas de entrenamiento adicionales sobre este conjunto de datos, y sus pesos se actualizan mediante optimización estándar basada en gradientes, de modo que la pérdida entre las salidas predichas y las objetivo disminuya.

Un modelo mental sencillo: imagina un modelo fundacional de uso general como un médico interno que ha leído todos los libros de texto. El fine-tuning es la residencia que lo especializa en radiología. Su conocimiento subyacente se mantiene, pero sus decisiones del día a día se enfocan con precisión en un solo dominio.

Por qué importa

El fine-tuning es la palanca principal que los equipos utilizan para convertir un modelo de uso general en un componente de producto fiable. Puede aumentar la precisión en tareas de nicho, imponer el estilo de la casa, reducir las alucinaciones en un ámbito definido, enseñar patrones de uso de herramientas y alinear las salidas con requisitos de seguridad o cumplimiento normativo. Para organizaciones con datos propios o experiencia de dominio, el fine-tuning ofrece una forma de codificar ese conocimiento en el propio modelo en lugar de depender solo de los prompts.

También tiene valor económico: un modelo abierto más pequeño y ajustado puede igualar a menudo la calidad de un modelo general mucho más grande en un flujo de trabajo específico, reduciendo los costes de inferencia a escala.

Tipos clave

Fine-tuning supervisado (SFT): entrenamiento con pares de entrada y salida etiquetados para enseñar una habilidad o formato específico.
Ajuste por instrucciones: una forma amplia de SFT que entrena al modelo para seguir instrucciones en lenguaje natural en muchas tareas.
Fine-tuning eficiente en parámetros (por ejemplo, LoRA, QLoRA): congela la mayoría de los pesos y entrena solo pequeñas capas adaptadoras, reduciendo el coste de cómputo y almacenamiento.
Aprendizaje por refuerzo a partir de feedback humano (RLHF): utiliza rankings de preferencias humanas para alinear aún más el modelo más allá de los ejemplos supervisados.
Preentrenamiento continuado: fine-tuning no supervisado sobre texto crudo de dominio para inyectar vocabulario y conocimiento antes del SFT específico de tarea.

El fine-tuning resulta más útil cuando ni el prompting ni la recuperación por sí solos alcanzan de forma fiable el nivel de calidad exigido, cuando la latencia o el coste descartan modelos muy grandes, o cuando el comportamiento deseado depende de patrones que el modelo base ha visto en raras ocasiones. Para una visión general accesible, consulta la documentación de entrenamiento de Hugging Face, y para la receta original detrás de los modelos que siguen instrucciones, consulta el artículo de FLAN.

¿Qué es Fine-Tuning?

Cómo funciona el fine-tuning

Por qué importa

Tipos clave

Frequently Asked Questions