Что такое фундаментальная модель?

Фундаментальная модель — это крупная универсальная модель ИИ, обученная на обширных данных, которую можно адаптировать для множества прикладных задач. Узнайте, как она работает и почему это важно.

Фундаментальная модель — это крупная модель машинного обучения, обученная на огромных и разнообразных наборах данных с использованием таких методов, как самообучение. После такой широкой предварительной подготовки та же самая модель может быть адаптирована, или дообучена, для выполнения широкого спектра прикладных задач — от ответов на вопросы и перевода языков до генерации изображений и анализа белков. Концепция была формализована в 2021 году Центром исследований фундаментальных моделей (CRFM) Стэнфордского университета, который ввёл этот термин для описания новой парадигмы в ИИ.

Как работают фундаментальные модели

Фундаментальные модели обычно строятся на архитектуре нейронной сети, чаще всего на трансформере, и обучаются на сотнях миллиардов слов, изображений или других точек данных, собранных из открытого веба, книг, репозиториев кода и лицензированных корпусов. Обучение обычно опирается на самообучение, при котором модель предсказывает недостающие или следующие фрагменты собственного ввода, что устраняет необходимость в размеченных вручную примерах в больших масштабах. Результатом является модель с широкими статистическими знаниями о языке, коде, изображениях или других модальностях, кодирующая общие закономерности, а не навык решения одной конкретной задачи.

После завершения предварительного обучения модель становится фундаментом: разработчики адаптируют её к конкретным приложениям с помощью таких методов, как дообучение, промпт-инжиниринг или генерация с дополнением извлечённой информацией. Таким образом, одна и та же базовая модель может обеспечивать работу чат-бота службы поддержки, инструмента для составления кратких выписок из медицинских карт и ассистента для написания кода — каждый из которых опирается на общие возможности, а не обучается с нуля.

Почему это важно

Фундаментальные модели изменили экономику ИИ, поскольку одна предварительно обученная модель может обслуживать сотни прикладных применений, значительно снижая затраты и объём данных, необходимых для создания новых приложений. Они обеспечивают работу широко используемых систем, таких как большие языковые модели для текста, диффузионные модели для генерации изображений и мультимодальные модели, обрабатывающие текст, изображения и аудио вместе. В то же время их масштаб концентрирует возможности, риски и предвзятости, поднимая важные вопросы оценки, безопасности и управления.

Основные типы фундаментальных моделей

  • Большие языковые модели (LLM): текстовые модели, такие как семейство GPT, Claude и Llama, обученные на массивных текстовых корпусах для генерации и рассуждений на естественном языке.
  • Диффузионные модели: модели генерации изображений, такие как Stable Diffusion, обученные обращать процесс добавления шума и синтезировать изображения по текстовым описаниям.
  • Мультимодальные модели: системы, такие как CLIP и GPT-4V, которые совместно обрабатывают текст, изображения, аудио или видео в рамках одной фундаментальной модели.
  • Предметно-ориентированные фундаментальные модели: модели, предварительно обученные на научной литературе, последовательностях белков или коде, а затем адаптированные для специализированных задач, таких как разработка лекарств или программная инженерия.

Заменив старую парадигму обучения узкоспециализированной модели для каждой новой задачи единым адаптируемым базовым решением, фундаментальные модели стали отправной точкой по умолчанию для современной разработки ИИ.

Вам также может понравиться

Похожие статьи