How many parameters does a large language model have?

Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.

Are more parameters always better?

Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.

What is the difference between parameters and tokens?

Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.

Can parameters be updated after training?

Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.

¿Qué son los parámetros en un modelo de IA?

Los parámetros en un modelo de IA son los valores numéricos aprendidos almacenados dentro de una red neuronal que controlan cómo transforma las entradas en salidas. Cada parámetro es esencialmente un peso en una conexión entre neuronas artificiales, y un modelo de lenguaje grande típico contiene desde decenas hasta cientos de miles de millones de ellos. El conjunto completo de parámetros, a menudo llamado los pesos del modelo, es el artefacto producido por el entrenamiento y es lo que se guarda en disco y se carga en el momento de la inferencia.

Cómo funcionan los parámetros

Durante el entrenamiento, el modelo procesa ejemplos, hace predicciones y las compara con la respuesta correcta. Un optimizador entonces ajusta ligeramente cada parámetro en la dirección que habría reducido el error, un proceso llamado descenso de gradiente. Tras billones de actualizaciones como esta, los parámetros se asientan en valores que codifican patrones estadísticos sobre el lenguaje, las imágenes o cualquier dato con el que se haya entrenado al modelo.

En la inferencia, un prompt se convierte en números y se pasa a través de docenas o cientos de capas. En cada capa, la entrada se multiplica por matrices de pesos y se pasa por funciones no lineales sencillas, con mecanismos de atención que permiten al modelo mezclar información entre posiciones. Ninguno de los datos originales de entrenamiento se almacena de forma literal en los pesos; más bien, los parámetros contienen una representación estadística comprimida de los mismos. Un ejemplo concreto: en un transformer, las proyecciones de query, key y value para cada cabeza de atención son matrices de parámetros que deciden a qué palabras anteriores atiende el modelo al predecir la siguiente.

Por qué importa

El número de parámetros es el indicador más citado de la capacidad de un modelo, y con razón: más parámetros dan a una red más capacidad para memorizar y generalizar patrones, y los modelos modernos más grandes muestran capacidades emergentes de las que carecen los más pequeños. El número de parámetros también condiciona cuestiones prácticas: memoria (cada parámetro suele ocupar 2 bytes en FP16 o 1 byte cuando se cuantiza de forma agresiva), coste computacional por token, latencia y el hardware necesario para ejecutar o ajustar el modelo. Por eso un modelo de 7 mil millones de parámetros puede ejecutarse en un portátil mientras que uno de 400 mil millones normalmente no puede.

Tipos clave

Pesos: la mayor parte de los parámetros, almacenados en matrices que multiplican las entradas y los estados ocultos.
Sesgos: pequeños offsets aditivos (uno por capa o por neurona) que desplazan las activaciones.
Parámetros de embedding: las tablas de búsqueda que convierten los IDs de tokens en vectores, contabilizadas en el presupuesto total de parámetros.
Parámetros de atención: las proyecciones de query, key, value y output dentro de cada bloque transformer.
Parámetros de feed-forward: las dos grandes capas densas de cada bloque transformer, que suelen representar la mayor parte del total de pesos.

Los parámetros también se agrupan habitualmente por precisión. Un modelo descrito como "70B" tiene 70 mil millones de parámetros, pero su tamaño en archivo depende de si se almacenan en formato de 32, 16, 8 o 4 bits, por lo que el mismo modelo puede ocupar desde unos 140 GB hasta alrededor de 35 GB en disco. Entender los parámetros aclara casi cualquier otro concepto de la IA moderna, desde el ajuste fino y la cuantización hasta la longitud de contexto y el coste de inferencia.

¿Qué es Parámetros (modelo de IA)?

Cómo funcionan los parámetros

Por qué importa

Tipos clave

Preguntas frecuentes