📖

Что такое Текст в изображение?

Text-to-image — это генеративный ИИ, который превращает текстовые запросы в изображения. Узнайте, как работают модели диффузии и трансформеры и где они применяются.

Text-to-image — это категория генеративного искусственного интеллекта, которая создаёт изображения непосредственно по текстовым описаниям. Пользователь вводит фразу вроде «корги-космонавт, плывущий в космосе, цифровая иллюстрация», и модель за считанные секунды возвращает подходящую картинку — без рисования, фотографии или стоковых библиотек. Область начала стремительно развиваться после 2021 года, когда модели диффузии продемонстрировали, что короткие текстовые запросы можно превращать в качественные и разнообразные изображения в промышленных масштабах.

Как работает text-to-image

Современные системы text-to-image построены на модели диффузии в связке с языковым кодировщиком. Обучение проходит в два этапа. Сначала визуально-языковая модель, такая как CLIP, учится размещать текст и изображения в общем математическом пространстве, чтобы фраза «красный шар» оказывалась рядом с фотографиями красных шаров. Затем диффузионная сеть учится обращать процесс зашумления: она начинает с экрана статического шума и шаг за шагом убирает шум, формируя связное изображение, на каждом шаге получая направление от текстового эмбеддинга, созданного языковой моделью.

При инференсе запрос пользователя токенизируется, преобразуется в эмбеддинг языковым кодировщиком, а затем используется для управления циклом устранения шума. Связанный метод, часто называемый латентной диффузией, выполняет зашумление и денойзинг в сжатом латентном пространстве, а не в полноразмерных пикселях, что делает генерацию значительно дешевле. Guidance без классификатора, представленный в 2022 году, смешивает условные и безусловные предсказания, благодаря чему результат точнее следует запросу, не теряя реалистичности.

Почему это важно

Text-to-image переводит создание визуального контента из ручного ремесла в формат диалога. Дизайнеры используют такие инструменты для быстрого поиска концепций и составления мудбордов, маркетологи получают изображения для кампаний без фотосессий, преподаватели оформляют учебные материалы, а игровые студии прототипируют персонажей и окружения. При этом технология поднимает практические вопросы об авторских правах на обучающие данные, дипфейках и предвзятости в том, как изображаются люди, профессии и культуры, — поэтому большинство платформ добавляют фильтры контента, механизмы подтверждения происхождения, такие как метаданные C2PA, и политики использования.

Ключевые типы и подходы

  • Модели диффузии — доминирующий подход, используемый в Stable Diffusion, Imagen и DALL·E 2/3. Они итеративно убирают шум из случайного шума, формируя изображение, обусловленное текстом.
  • Авторегрессионные модели изображений — обрабатывают генерацию изображений по аналогии с генерацией текста, последовательно предсказывая визуальные токены, как в Parti и оригинальной DALL·E.
  • Генераторы на основе GAN — более ранние системы, такие как StackGAN и DALL·E mini, использовали генеративно-состязательные сети, которые сейчас в основном вытеснены для общего применения.
  • Мультимодальные ассистенты — новые модели вроде GPT-4o и Gemini объединяют понимание и генерацию изображений в едином чат-интерфейсе.

Для более глубокого технического обзора статья «High-Resolution Image Synthesis with Latent Diffusion Models» описывает архитектуру, лежащую в основе Stable Diffusion, а анонс DALL·E 3 от OpenAI объясняет, как современные системы интегрируют языковые модели для точного следования запросам.

Часто задаваемые вопросы

What is the difference between text-to-image and text-to-video?
Text-to-image produces a single still image from a prompt, while text-to-video generates a sequence of frames that play as a short clip. Text-to-video models, such as Sora and Runway Gen, build on the same diffusion and transformer ideas as text-to-image systems but add a temporal dimension, which makes them far more compute-intensive and still less mature.
Are text-to-image images copyrighted?
Copyright treatment varies by country and is still being settled in court. In the United States, pure AI-generated images without meaningful human authorship have generally not been granted copyright, though a human's selection, arrangement, or editing of AI output can qualify. Commercial platforms also layer their own licensing terms on top of any baseline copyright rules.
How long does it take to generate one image?
On a modern consumer GPU, a single 512x512 image typically takes 1 to 10 seconds with a standard latent diffusion model. Cloud services that run on larger models or higher resolutions can take 10 to 30 seconds. Time scales with image size, the number of denoising steps, and the hardware used.
What is a negative prompt?
A negative prompt is a separate text input that tells the model what to avoid, such as "blurry, extra fingers, watermark." During guidance, the model steers away from these concepts, which is a practical way to suppress common artifacts and unwanted styles without rewriting the main prompt.