📖

Что такое LLM с открытым исходным кодом?

Open-source LLM — это большая языковая модель, опубликованная с открытыми весами и лицензией, которая позволяет любому запускать, изучать и модифицировать её. Узнайте, как работают такие модели и почему они важны.

Open-source LLM — это большая языковая модель, обученные параметры которой, а зачастую и сопутствующий код для обучения и инференса, публикуются под лицензией, разрешающей загрузку, изучение, дообучение и распространение модели. Идея следует традиции открытого программного обеспечения: делясь внутренним устройством модели, любой — от отдельных разработчиков до крупных компаний — может строить на её основе свои решения, не полагаясь исключительно на закрытые API. На практике этот термин охватывает широкий спектр — от полностью открытых релизов, где публикуются данные и рецепты обучения, до релизов «open-weight», где доступна сама модель, но данные и методы частично остаются проприетарными.

Как работают open-source LLM

Обучение LLM проходит в два этапа. Сначала модель осваивает общие языковые закономерности, предсказывая следующий токен на огромных текстовых массивах — этот этап называется предобучением. Затем она дорабатывается с помощью обратной связи от людей или курируемых примеров, чтобы её ответы становились полезнее; этот этап известен как пост-обучение или выравнивание (alignment). В open-source релизе LLM самый важный артефакт — файл весов: снимок миллиардов (или триллионов) числовых параметров, в которых закодировано всё, чему модель научилась.

Когда веса опубликованы, как правило, на платформе вроде Hugging Face, любой пользователь с достаточным объёмом видеопамяти может загрузить модель локально, выполнять инференс на собственном оборудовании, дообучить её на своих данных или даже продолжить её предобучение под новую предметную область. Небольшая модель, созданная сообществом, такая как Mistral, может работать на ноутбуке, тогда как модели на 70 миллиардов параметров требуют нескольких мощных GPU. Поскольку веса открыты, исследователи также могут анализировать модель на предмет предвзятости, проблем безопасности и возможностей — такая аудируемость недоступна закрытым API.

Почему это важно

Open-source LLM дают организациям контроль над расходами, конфиденциальностью данных и развёртыванием. Больница, юридическая фирма или государственное учреждение могут запускать модель на собственных серверах, чтобы конфиденциальные запросы не покидали периметр сети. Разработчики в регионах с ограниченным доступом к API всё равно могут создавать приложения на основе ИИ. Исследователи могут изучать поведение моделей и воспроизводить опубликованные результаты, что укрепляет науку о безопасности ИИ.

Открытые релизы также создают конкурентное давление на закрытых провайдеров, ускоряют инновации за счёт объединения усилий сообщества и снижают привязку к конкретному поставщику. Компромиссы реальны: открытые веса могут использоваться для дезинформации или создания вредоносных инструментов, а ландшафт лицензий неоднороден — некоторые «открытые» модели ограничивают коммерческое использование или содержат оговорки по сценариям применения, что расходится с классическим определением open-source, продвигаемым Open Source Initiative.

Ключевые примеры и типы лицензий

  • Семейство Llama от Meta — высококачественные модели с открытыми весами и лицензией, допускающей коммерческое использование, но содержащей ограничения по сценариям применения и пороговые условия по выручке в зависимости от размера компании.
  • Модели Mistral и Mixtral — выпущены под разрешительной лицензией Apache 2.0, допускающей широкое коммерческое использование и создание производных продуктов.
  • DeepSeek, Qwen и Yi — разработанные в Китае модели с открытыми весами, которые быстро достигли уровня западных аналогов в бенчмарках.
  • OLMo от Allen AI — полностью открытый релиз, включающий помимо весов код обучения, данные и инструменты оценки.
  • Pythia и BLOOM — исследовательские модели, опубликованные с обширной документацией для воспроизводимых исследований.

Называете ли вы это open-source или open-weight, практический сдвиг значителен: возможности, которые когда-то существовали лишь внутри горстки API-эндпоинтов, теперь лежат в открытом каталоге, который любой разработчик может клонировать. Для команд, выбирающих между построением на закрытых API и самостоятельным хостингом, решающими факторами обычно остаются управление данными, требования к задержке, совокупная стоимость владения и объём кастомизации, необходимый приложению.

Часто задаваемые вопросы

Is Llama truly open-source?
It depends on your definition. Meta's Llama models publish their weights and allow commercial use, but the license includes use-case restrictions and a clause for very large commercial deployments. By the strict Open Source Initiative definition, it is usually classified as "open-weight" rather than fully open-source, because not all training artifacts are released and redistribution is constrained.
What is the difference between open-source and open-weight LLMs?
Open-weight models release the trained parameters so anyone can run and fine-tune them, but may withhold training data or code. Open-source LLMs aim to release everything — weights, training code, data, and recipes — under a permissive license. The stricter the release, the easier it is for independent researchers to reproduce and audit the model.
Can I run an open-source LLM on my own computer?
Smaller open-source models in the 1B–8B parameter range can run on consumer hardware, sometimes on a laptop with sufficient RAM or a single consumer GPU. Larger models in the 30B–70B range typically need multiple high-end data-center GPUs and significant memory. Quantized versions, which store weights in lower precision, make running bigger models on modest hardware more feasible.
Why would a company choose an open-source LLM over a closed API?
Common reasons include data privacy (prompts never leave the company), predictable costs at scale, the ability to fine-tune on proprietary data, no vendor lock-in, and compliance with regulations that restrict sending data to third-party APIs. The trade-off is that the company takes on the operational burden of hosting, updating, and securing the model itself.