How many parameters does a large language model have?

Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.

Are more parameters always better?

Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.

What is the difference between parameters and tokens?

Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.

Can parameters be updated after training?

Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.

O que são os parâmetros num modelo de IA?

Os parâmetros num modelo de IA são os valores numéricos aprendidos, armazenados no interior de uma rede neuronal, que controlam a forma como esta transforma entradas em saídas. Cada parâmetro é, essencialmente, um peso numa ligação entre neurónios artificiais, e um grande modelo de linguagem típico contém entre dezenas e centenas de milhares de milhões desses parâmetros. O conjunto completo de parâmetros, frequentemente designado por pesos do modelo, é o artefacto produzido pelo treino e é o que é guardado em disco e carregado no momento da inferência.

Como funcionam os parâmetros

Durante o treino, o modelo processa exemplos, faz previsões e compara-as com a resposta correta. Um otimizador ajusta então ligeiramente cada parâmetro na direção que teria reduzido o erro, num processo chamado gradiente descendente. Após biliões de atualizações deste tipo, os parâmetros estabilizam em valores que codificam padrões estatísticos sobre linguagem, imagens ou qualquer outro tipo de dados com que o modelo tenha sido treinado.

No momento da inferência, um prompt é convertido em números e passado através de dezenas ou centenas de camadas. Em cada camada, a entrada é multiplicada por matrizes de pesos e passada por funções não lineares simples, com mecanismos de atenção que permitem ao modelo misturar informação entre posições. Nenhum dos dados originais de treino é guardado de forma literal nos pesos; em vez disso, os parâmetros contêm uma representação estatística comprimida desses dados. Um exemplo concreto: num transformer, as projeções de query, key e value para cada cabeça de atenção são matrizes de parâmetros que decidem a que palavras anteriores o modelo presta atenção ao prever a seguinte.

Por que é importante

O número de parâmetros é o proxy mais citado para a capacidade de um modelo, e com boa razão: mais parâmetros dão a uma rede mais capacidade para memorizar e generalizar padrões, e os maiores modelos modernos apresentam capacidades emergentes de que os mais pequenos carecem. O número de parâmetros também determina preocupações práticas: memória (cada parâmetro ocupa tipicamente 2 bytes em FP16 ou 1 byte quando fortemente quantizado), custo computacional por token, latência e o hardware necessário para executar ou fazer fine-tuning do modelo. É por isso que um modelo com 7 mil milhões de parâmetros pode correr num portátil, enquanto um modelo com 400 mil milhões normalmente não pode.

Tipos principais

Pesos: a maior parte dos parâmetros, armazenados em matrizes que multiplicam as entradas e os estados ocultos.
Vieses: pequenos desvios aditivos (um por camada ou por neurónio) que deslocam as ativações.
Parâmetros de embedding: as tabelas de consulta que convertem IDs de tokens em vetores, contabilizados no orçamento total de parâmetros.
Parâmetros de atenção: as projeções de query, key, value e output dentro de cada bloco transformer.
Parâmetros feed-forward: as duas camadas densas grandes em cada bloco transformer, que normalmente representam a maioria do total de pesos.

Os parâmetros também são habitualmente agrupados por precisão. Um modelo descrito como "70B" tem 70 mil milhões de parâmetros, mas o seu tamanho em ficheiro depende de estes estarem armazenados em formato de 32 bits, 16 bits, 8 bits ou 4 bits, o que explica por que motivo o mesmo modelo pode variar entre cerca de 140 GB e cerca de 35 GB em disco. Compreender os parâmetros esclarece praticamente todos os outros conceitos da IA moderna, desde o fine-tuning e a quantização ao comprimento do contexto e ao custo de inferência.

O que é Parâmetros (Modelo de IA)?

Como funcionam os parâmetros

Por que é importante

Tipos principais

Perguntas Frequentes