VideoPoet offers a free plan. Paid plans are available for advanced features.

VideoPoet

⭐ 4.5

VideoPoet de Google Research transforme des modèles de langage en générateurs vidéo de haute qualité prenant en charge la synthèse texte-vers-vidéo et multimodale.

Sélectionné par HyperClaw · Mis à jour 2026-04-10

Freemium ✍️ Texte et rédaction 🎬 Vidéo et audio 🔬 Recherche et analyse 🎙️ Voix & Parole

Visiter VideoPoet

VideoPoet en un coup d'œil

Tarifs: Freemium
Note: ⭐ 4.5/5 · 2 avis
Points forts: Génération multimodale à travers texte, image, vidéo et audio · Prend en charge des tâches créatives variées, notamment l'inpainting et la styli · Génère du contenu court aux formats carré et portrait

Captures d'écran

À propos de VideoPoet

VideoPoet représente une avancée majeure dans la génération vidéo pilotée par l'IA en exploitant des modèles de langage autorégressifs pour créer des vidéos dotées d'une cohérence temporelle et de mouvements naturels. Le système utilise des techniques de tokenisation avancées, notamment MAGVIT V2 pour la vidéo et SoundStream pour l'audio, afin de convertir le contenu visuel et audio en codes discrets au sein d'un vocabulaire unifié. Cette approche unifiée permet une intégration fluide entre plusieurs modalités — texte, images, vidéo et audio — autorisant le modèle de langage à comprendre et à générer du contenu dans tous les formats simultanément. L'outil excelle dans la gestion de tâches créatives variées au-delà de la simple génération vidéo. Les utilisateurs peuvent exploiter les capacités de texte-vers-vidéo, image-vers-vidéo, continuation d'images vidéo, inpainting, outpainting et stylisation. Le système apprend à travers toutes les modalités pendant l'entraînement, ce qui lui permet de produire des vidéos d'une cohérence et d'une qualité remarquables. De plus, VideoPoet peut générer de l'audio directement à partir d'une entrée vidéo, ce qui le rend précieux pour créer des bandes-son synchronisées et du contenu multimodal en un seul flux de travail. VideoPoet répond à la demande croissante de contenus au format court en prenant en charge les orientations carrée et portrait, ce qui le rend idéal pour les réseaux sociaux et les plateformes mobiles. La capacité du système à effectuer du montage et de la synthèse vidéo tout en maintenant la cohérence temporelle ouvre de nouvelles possibilités aux créateurs de contenu, cinéastes et chercheurs. En combinant plusieurs objectifs d'apprentissage génératif dans son cadre d'entraînement, VideoPoet démontre comment les modèles de langage peuvent devenir des outils polyvalents pour la création vidéo et audio, comblant le fossé entre l'IA textuelle et la production de médias visuels.

Avantages

👍 Génération multimodale à travers texte, image, vidéo et audio 👍 Prend en charge des tâches créatives variées, notamment l'inpainting et la styli 👍 Génère du contenu court aux formats carré et portrait 👍 Maintient la cohérence temporelle dans les vidéos générées 👍 Crée un audio synchronisé à partir d'entrées vidéo

Inconvénients

👎 Outil de recherche avec accessibilité publique limitée ou disponibilité commerci 👎 Nécessite une compréhension de l'architecture des modèles de langage et de la to 👎 Les exigences de calcul pour une génération vidéo de haute qualité peuvent être 👎 La qualité de sortie dépend de la cohérence des données d'entraînement multimoda