How many parameters does a large language model have?

Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.

Are more parameters always better?

Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.

What is the difference between parameters and tokens?

Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.

Can parameters be updated after training?

Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.

Что такое параметры в модели ИИ?

Параметры в модели ИИ — это изученные числовые значения, хранящиеся внутри нейронной сети, которые управляют тем, как она преобразует входные данные в выходные. Каждый параметр по сути является весом связи между искусственными нейронами, а типичная большая языковая модель содержит от десятков до сотен миллиардов таких параметров. Полный набор параметров, часто называемый весами модели, — это артефакт, полученный в результате обучения; именно он сохраняется на диск и загружается во время инференса.

Как работают параметры

Во время обучения модель обрабатывает примеры, делает предсказания и сравнивает их с правильным ответом. Затем оптимизатор слегка сдвигает каждый параметр в направлении, которое уменьшило бы ошибку — этот процесс называется градиентным спуском. После триллионов таких обновлений параметры принимают значения, кодирующие статистические закономерности о языке, изображениях или любых других данных, на которых обучалась модель.

При инференсе промпт преобразуется в числа и проходит через десятки или сотни слоёв. На каждом слое входные данные умножаются на матрицы весов и проходят через простые нелинейные функции, а механизмы внимания позволяют модели смешивать информацию между позициями. Исходные обучающие данные не хранятся в весах дословно; скорее, параметры содержат их сжатое статистическое представление. Конкретный пример: в трансформере проекции query, key и value для каждой головы внимания представляют собой матрицы параметров, которые определяют, на какие предыдущие слова модель обращает внимание при предсказании следующего.

Почему это важно

Количество параметров — наиболее часто цитируемый прокси- показатель возможностей модели, и не зря: большее число параметров даёт сети больше ёмкости для запоминания и обобщения закономерностей, а самые крупные современные модели демонстрируют эмерджентные способности, которых нет у меньших. Количество параметров также определяет практические аспекты: память (каждый параметр обычно занимает 2 байта в FP16 или 1 байт при агрессивном квантовании), стоимость вычислений на токен, задержку и оборудование, необходимое для запуска или дообучения модели. Именно поэтому модель с 7 миллиардами параметров может работать на ноутбуке, а модель с 400 миллиардами параметров — обычно нет.

Основные типы

Веса: основная масса параметров, хранящаяся в матрицах, которые умножают входные данные и скрытые состояния.
Смещения: небольшие аддитивные сдвиги (по одному на слой или нейрон), которые смещают активации.
Параметры эмбеддингов: таблицы поиска, которые преобразуют идентификаторы токенов в векторы; учитываются в общем бюджете параметров.
Параметры внимания: проекции query, key, value и output внутри каждого блока трансформера.
Параметры полносвязных слоёв: два больших плотных слоя в каждом блоке трансформера, на которые обычно приходится большая часть всех весов.

Параметры также часто группируют по точности. Модель, описанная как «70B», имеет 70 миллиардов параметров, но её размер на диске зависит от того, хранятся ли они в 32-, 16-, 8- или 4-битном формате — именно поэтому одна и та же модель может занимать от примерно 140 ГБ до около 35 ГБ. Понимание параметров проясняет почти все остальные концепции современного ИИ — от дообучения и квантования до длины контекста и стоимости инференса.

Что такое Параметры (ИИ-модель)?

Как работают параметры

Почему это важно

Основные типы

Часто задаваемые вопросы