Los parámetros en un modelo de IA son los valores numéricos aprendidos almacenados dentro de una red neuronal que controlan cómo transforma las entradas en salidas. Cada parámetro es esencialmente un peso en una conexión entre neuronas artificiales, y un modelo de lenguaje grande típico contiene desde decenas hasta cientos de miles de millones de ellos. El conjunto completo de parámetros, a menudo llamado los pesos del modelo, es el artefacto producido por el entrenamiento y es lo que se guarda en disco y se carga en el momento de la inferencia.
Cómo funcionan los parámetros
Durante el entrenamiento, el modelo procesa ejemplos, hace predicciones y las compara con la respuesta correcta. Un optimizador entonces ajusta ligeramente cada parámetro en la dirección que habría reducido el error, un proceso llamado descenso de gradiente. Tras billones de actualizaciones como esta, los parámetros se asientan en valores que codifican patrones estadísticos sobre el lenguaje, las imágenes o cualquier dato con el que se haya entrenado al modelo.
En la inferencia, un prompt se convierte en números y se pasa a través de docenas o cientos de capas. En cada capa, la entrada se multiplica por matrices de pesos y se pasa por funciones no lineales sencillas, con mecanismos de atención que permiten al modelo mezclar información entre posiciones. Ninguno de los datos originales de entrenamiento se almacena de forma literal en los pesos; más bien, los parámetros contienen una representación estadística comprimida de los mismos. Un ejemplo concreto: en un transformer, las proyecciones de query, key y value para cada cabeza de atención son matrices de parámetros que deciden a qué palabras anteriores atiende el modelo al predecir la siguiente.
Por qué importa
El número de parámetros es el indicador más citado de la capacidad de un modelo, y con razón: más parámetros dan a una red más capacidad para memorizar y generalizar patrones, y los modelos modernos más grandes muestran capacidades emergentes de las que carecen los más pequeños. El número de parámetros también condiciona cuestiones prácticas: memoria (cada parámetro suele ocupar 2 bytes en FP16 o 1 byte cuando se cuantiza de forma agresiva), coste computacional por token, latencia y el hardware necesario para ejecutar o ajustar el modelo. Por eso un modelo de 7 mil millones de parámetros puede ejecutarse en un portátil mientras que uno de 400 mil millones normalmente no puede.
Tipos clave
- Pesos: la mayor parte de los parámetros, almacenados en matrices que multiplican las entradas y los estados ocultos.
- Sesgos: pequeños offsets aditivos (uno por capa o por neurona) que desplazan las activaciones.
- Parámetros de embedding: las tablas de búsqueda que convierten los IDs de tokens en vectores, contabilizadas en el presupuesto total de parámetros.
- Parámetros de atención: las proyecciones de query, key, value y output dentro de cada bloque transformer.
- Parámetros de feed-forward: las dos grandes capas densas de cada bloque transformer, que suelen representar la mayor parte del total de pesos.
Los parámetros también se agrupan habitualmente por precisión. Un modelo descrito como "70B" tiene 70 mil millones de parámetros, pero su tamaño en archivo depende de si se almacenan en formato de 32, 16, 8 o 4 bits, por lo que el mismo modelo puede ocupar desde unos 140 GB hasta alrededor de 35 GB en disco. Entender los parámetros aclara casi cualquier otro concepto de la IA moderna, desde el ajuste fino y la cuantización hasta la longitud de contexto y el coste de inferencia.