Los datos de entrenamiento son el conjunto de ejemplos que un modelo de aprendizaje automático estudia para aprender una tarea. Cada ejemplo suele emparejar una entrada con una salida esperada, como un correo electrónico emparejado con la etiqueta spam o no-spam, una frase emparejada con su idioma, o una imagen emparejada con el objeto que contiene. Durante el entrenamiento, el modelo ajusta sus parámetros internos para que sus predicciones se ajusten a los patrones de los datos, por lo que el conjunto de datos define en la práctica qué aprenderá (y qué no) a hacer el modelo.
Cómo funcionan los datos de entrenamiento
En el aprendizaje supervisado, la configuración más habitual, cada ejemplo se anota con una respuesta correcta. Un conjunto de datos de reseñas de productos, por ejemplo, podría estar etiquetado como "positivo" o "negativo", y el modelo aprende a asignar nuevas reseñas a esas categorías encontrando regularidades estadísticas que las distinguen. Los datos se dividen en un conjunto de entrenamiento, usado para ajustar el modelo; un conjunto de validación, empleado para afinarlo; y un conjunto de prueba independiente, utilizado para estimar el rendimiento que tendrá con ejemplos que nunca ha visto.
Otros paradigmas se basan en formas de datos distintas. El aprendizaje no supervisado utiliza entradas sin etiquetar, a menudo para descubrir estructuras como grupos o temas. El aprendizaje autosupervisado genera las etiquetas a partir de los propios datos, que es como se preentrena la mayoría de los modelos de lenguaje de gran tamaño sobre enormes corpus de texto. La escala, el equilibrio y la representatividad del conjunto de datos influyen directamente en lo que el modelo es capaz de generalizar.
Por qué es importante
Los datos de entrenamiento son el factor que más determina el comportamiento del modelo, a menudo más que la elección del algoritmo. Si los datos están sesgados, son escasos o poco representativos, el modelo reproducirá y, en ocasiones, amplificará esos defectos. Las preocupaciones sobre privacidad, derechos de autor y consentimiento también residen en la capa de datos, ya que un modelo puede memorizar y reproducir fragmentos sensibles de su conjunto de entrenamiento. Por todo ello, la curación, la documentación y la evaluación de los datos se han convertido en piezas clave del desarrollo responsable de IA.
Tipos principales de datos de entrenamiento
- Datos etiquetados: cada ejemplo cuenta con una anotación proporcionada por humanos o generada por una máquina, y se utiliza en tareas de aprendizaje supervisado como la clasificación o la detección.
- Datos no etiquetados: entradas sin anotaciones, empleados en el preentrenamiento no supervisado y autosupervisado.
- Datos sintéticos: ejemplos generados por simuladores u otros modelos, útiles cuando los datos reales son escasos o sensibles.
- Datos de instrucciones y preferencias: prompts emparejados con respuestas ideales, o pares de salidas ordenadas por calidad, utilizados para alinear los modelos con la intención humana.
- Benchmarks de evaluación: conjuntos de prueba cuidadosamente seleccionados que miden capacidades, aunque no se utilizan para ajustar los parámetros del modelo.
Para profundizar en la construcción de conjuntos de datos y su impacto, el capítulo "Data Quality" del libro Data-Centric AI y las clasificaciones de Papers with Code son buenos puntos de partida.