Параметры в модели ИИ — это изученные числовые значения, хранящиеся внутри нейронной сети, которые управляют тем, как она преобразует входные данные в выходные. Каждый параметр по сути является весом связи между искусственными нейронами, а типичная большая языковая модель содержит от десятков до сотен миллиардов таких параметров. Полный набор параметров, часто называемый весами модели, — это артефакт, полученный в результате обучения; именно он сохраняется на диск и загружается во время инференса.
Как работают параметры
Во время обучения модель обрабатывает примеры, делает предсказания и сравнивает их с правильным ответом. Затем оптимизатор слегка сдвигает каждый параметр в направлении, которое уменьшило бы ошибку — этот процесс называется градиентным спуском. После триллионов таких обновлений параметры принимают значения, кодирующие статистические закономерности о языке, изображениях или любых других данных, на которых обучалась модель.
При инференсе промпт преобразуется в числа и проходит через десятки или сотни слоёв. На каждом слое входные данные умножаются на матрицы весов и проходят через простые нелинейные функции, а механизмы внимания позволяют модели смешивать информацию между позициями. Исходные обучающие данные не хранятся в весах дословно; скорее, параметры содержат их сжатое статистическое представление. Конкретный пример: в трансформере проекции query, key и value для каждой головы внимания представляют собой матрицы параметров, которые определяют, на какие предыдущие слова модель обращает внимание при предсказании следующего.
Почему это важно
Количество параметров — наиболее часто цитируемый прокси- показатель возможностей модели, и не зря: большее число параметров даёт сети больше ёмкости для запоминания и обобщения закономерностей, а самые крупные современные модели демонстрируют эмерджентные способности, которых нет у меньших. Количество параметров также определяет практические аспекты: память (каждый параметр обычно занимает 2 байта в FP16 или 1 байт при агрессивном квантовании), стоимость вычислений на токен, задержку и оборудование, необходимое для запуска или дообучения модели. Именно поэтому модель с 7 миллиардами параметров может работать на ноутбуке, а модель с 400 миллиардами параметров — обычно нет.
Основные типы
- Веса: основная масса параметров, хранящаяся в матрицах, которые умножают входные данные и скрытые состояния.
- Смещения: небольшие аддитивные сдвиги (по одному на слой или нейрон), которые смещают активации.
- Параметры эмбеддингов: таблицы поиска, которые преобразуют идентификаторы токенов в векторы; учитываются в общем бюджете параметров.
- Параметры внимания: проекции query, key, value и output внутри каждого блока трансформера.
- Параметры полносвязных слоёв: два больших плотных слоя в каждом блоке трансформера, на которые обычно приходится большая часть всех весов.
Параметры также часто группируют по точности. Модель, описанная как «70B», имеет 70 миллиардов параметров, но её размер на диске зависит от того, хранятся ли они в 32-, 16-, 8- или 4-битном формате — именно поэтому одна и та же модель может занимать от примерно 140 ГБ до около 35 ГБ. Понимание параметров проясняет почти все остальные концепции современного ИИ — от дообучения и квантования до длины контекста и стоимости инференса.