Text-to-video는 생성형 AI의 한 분야로, 작성된 프롬프트로부터 영상을 생성합니다. "햇살 가득한 초원을 달리는 코기 puppy"와 같은 문장이 주어지면, 모델은 그 설명에 부합하는 짧은 클립을 출력합니다. 이는 text-to-image 시스템의 개념을 확장한 것이지만, 여러 프레임에 걸쳐 일관된 움직임을 생성한다는 더 어려운 과제를 추가합니다.
Text-to-video의 작동 원리
현재 대부분의 text-to-video 모델은 3단계 파이프라인을 기반으로 구축됩니다. 먼저, 텍스트 인코더(보통 대규모 언어 모델 또는 CLIP 스타일의 대조 인코더)가 프롬프트를 그 의미를 포착하는 수치 표현으로 변환합니다. 둘째, 일반적으로 비디오扩散 모델 또는 텍스트-비디오 페어 데이터로 학습된 트랜스포머인 생성 모델이 무작위 잠재 프레임을 去잡음 처리하여 해당 표현에 맞는 시퀀스로 만듭니다. 扩散 모델은 무작위 텐서에서 점진적으로 잡음을 제거하는 방식으로 학습하며, 선명하고 일관된 결과를 생성하기 때문에 지배적인 접근 방식이 되었습니다.
세 번째 단계는 시간적 일관성, 즉 객체, 조명, 스타일이 프레임마다 깜빡이거나 변형되지 않고 안정적으로 유지되는 속성을 강제합니다. 이 단계에서 사용되는 기법으로는 시간을 세 번째 차원으로 취급하는 3D 컨볼루션, 후행 프레임이 이전 프레임에 어텐드할 수 있도록 하는 시간 어텐션 레이어, 명시적인 모션 컨디셔닝 신호 등이 있습니다. 학습 데이터는 대규모이고 다양합니다. 모델은 공개 비디오-캡션 말뭉치와 같은 캡션된 비디오 데이터셋에서 학습하여, 한 번도 본 적 없는 프롬프트에도 일반화할 수 있습니다. 간단한 예로, "나무 테이블 위를 굴러가는 빨간 공"을 입력하면 모델은 모양, 색상, 표면, 움직임을 추론한 다음, 공이 왼쪽에서 등장해 오른쪽으로 이동하며 일관된 그림자를 드리우는 수 초 분량의 영상을 렌더링합니다.
이 기술이 중요한 이유
Text-to-video는 움직이는 이미지를 제작하는 데 필요한 비용과 기술적 진입 장벽을 낮춰줍니다. 영화 제작자, 광고주, 교육자, 게임 스튜디오가 이를 활용해 씬을 프로토타이핑하고, B-roll을 생성하거나, 스톡 영상을 주문형으로 만듭니다. 소규모 팀에게는 특정 작업에서 카메라, 배우, 편집자의 필요성을 대체합니다. 연구자에게는 다중 모달 이해에 대한 벤치마크가 됩니다. 왜냐하면 한 문장으로부터 영상을 합성할 수 있는 모델은 암묵적으로 객체의 움직임, 빛의 행동, 씬의 구성 방식을 알아야 하기 때문입니다. 또한 이 기술은 저작권, 딥페이크, 합성 미디어의 라벨링에 대한 중요한 질문을 제기하며, 이것이 AI 생성 비디오를 배포하는 플랫폼이 출력물에 출처 메타데이터를 점점 더 부착하는 이유입니다.
Text-to-video 시스템의 주요 유형
- 扩散 기반 모델인 Sora, Runway Gen-3, Stable Video Diffusion은 이미지 扩散을 시간 축으로 확장한 것으로, 현재 시각적 품질에서 선두를 달리고 있습니다.
- 트랜스포머 기반 모델인 MovieGen과 Phenaki는 자기회귀적으로 또는 토큰 단위로 비디오를 생성하며, 더 긴 클립과 더 강력한 프롬프트 준수를 지원하는 경우가 많습니다.
- Image-to-video 시스템은 참조 프레임과 프롬프트로 시작하여 이를 애니메이션화하며, 제어된 편집과 양식화된 모션에 유용합니다.
- 오픈소스 릴리스인 ModelScope, AnimateDiff, OpenSora는 로컬 GPU에서 실행하는 연구자와 취미 개발자들이 이 기술에 접근할 수 있게 만들었습니다.
Text-to-video는 아직 초기 단계입니다. 클립은 일반적으로 몇 초에 불과하며, 모델은 복잡한 물리나 장기적인 인과 관계에서 실수할 수 있습니다. 시간적 일관성, 제어 가능성, 길이 측면의 개선이 주요 프론티어이며, 매 세대마다 출력이 실제 footage와 구별하기 어려워지고 있습니다. 더 깊은 기술적 개요를 원하신다면, OpenAI의 Sora 기술 보고서가 좋은 시작점이 될 것입니다.