What is the difference between a foundation model and a large language model?

All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.

Who coined the term foundation model?

The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.

How are foundation models trained?

Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.

Can foundation models be fine-tuned?

Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.

Что такое фундаментальная модель? Определение и руководство

Фундаментальная модель — это крупная модель машинного обучения, обученная на огромных и разнообразных наборах данных с использованием таких методов, как самообучение. После такой широкой предварительной подготовки та же самая модель может быть адаптирована, или дообучена, для выполнения широкого спектра прикладных задач — от ответов на вопросы и перевода языков до генерации изображений и анализа белков. Концепция была формализована в 2021 году Центром исследований фундаментальных моделей (CRFM) Стэнфордского университета, который ввёл этот термин для описания новой парадигмы в ИИ.

Как работают фундаментальные модели

Фундаментальные модели обычно строятся на архитектуре нейронной сети, чаще всего на трансформере, и обучаются на сотнях миллиардов слов, изображений или других точек данных, собранных из открытого веба, книг, репозиториев кода и лицензированных корпусов. Обучение обычно опирается на самообучение, при котором модель предсказывает недостающие или следующие фрагменты собственного ввода, что устраняет необходимость в размеченных вручную примерах в больших масштабах. Результатом является модель с широкими статистическими знаниями о языке, коде, изображениях или других модальностях, кодирующая общие закономерности, а не навык решения одной конкретной задачи.

После завершения предварительного обучения модель становится фундаментом: разработчики адаптируют её к конкретным приложениям с помощью таких методов, как дообучение, промпт-инжиниринг или генерация с дополнением извлечённой информацией. Таким образом, одна и та же базовая модель может обеспечивать работу чат-бота службы поддержки, инструмента для составления кратких выписок из медицинских карт и ассистента для написания кода — каждый из которых опирается на общие возможности, а не обучается с нуля.

Почему это важно

Фундаментальные модели изменили экономику ИИ, поскольку одна предварительно обученная модель может обслуживать сотни прикладных применений, значительно снижая затраты и объём данных, необходимых для создания новых приложений. Они обеспечивают работу широко используемых систем, таких как большие языковые модели для текста, диффузионные модели для генерации изображений и мультимодальные модели, обрабатывающие текст, изображения и аудио вместе. В то же время их масштаб концентрирует возможности, риски и предвзятости, поднимая важные вопросы оценки, безопасности и управления.

Основные типы фундаментальных моделей

Большие языковые модели (LLM): текстовые модели, такие как семейство GPT, Claude и Llama, обученные на массивных текстовых корпусах для генерации и рассуждений на естественном языке.
Диффузионные модели: модели генерации изображений, такие как Stable Diffusion, обученные обращать процесс добавления шума и синтезировать изображения по текстовым описаниям.
Мультимодальные модели: системы, такие как CLIP и GPT-4V, которые совместно обрабатывают текст, изображения, аудио или видео в рамках одной фундаментальной модели.
Предметно-ориентированные фундаментальные модели: модели, предварительно обученные на научной литературе, последовательностях белков или коде, а затем адаптированные для специализированных задач, таких как разработка лекарств или программная инженерия.

Заменив старую парадигму обучения узкоспециализированной модели для каждой новой задачи единым адаптируемым базовым решением, фундаментальные модели стали отправной точкой по умолчанию для современной разработки ИИ.

Что такое Базовая модель?

Как работают фундаментальные модели

Почему это важно

Основные типы фундаментальных моделей

Часто задаваемые вопросы