Google dévoile Veo - Un modèle de synthèse vidéo boosté à l'IA

Lors de la conférence Google I/O 2024 ce mardi, Google a annoncé Veo, un nouveau modèle de synthèse vidéo basé sur l'IA capable de créer des vidéos HD à partir de textes, d'images ou de vidéos, semblable à Sora d'OpenAI. Il peut générer des vidéos en 1080p d'une durée de plus d'une minute et les éditer à partir d'instructions écrites, bien qu'il ne soit pas encore disponible pour une utilisation générale.



Veo se distingue par sa capacité à éditer des vidéos existantes en utilisant des commandes textuelles, à maintenir une cohérence visuelle entre les frames et à générer des séquences pouvant durer jusqu'à 60 secondes ou plus à partir d'un seul prompt ou d'une série d'invites formant un récit. La société affirme qu'il peut générer des scènes détaillées et appliquer des effets cinématographiques tels que des time-lapses, des vues aériennes et divers styles visuels. Depuis le lancement de DALL-E 2 en avril 2022, de nombreux modèles de synthèse d'images et de vidéos ont émergé. Bien que ces technologies ne soient pas encore parfaitement au point, les générateurs de ce type de médias continuent de s'améliorer. En février, OpenAI a présenté Sora, qui était alors considéré comme le meilleur modèle du genre disponible. Cependant, l'entreprise derrière ChatGPT n'a pas encore offert un accès général à cet outil, le réservant à un groupe restreint de testeurs.

Veo - Promesses et réalités

À première vue, Veo semble capable de prouesses similaires à celles de Sora. Les exemples de vidéos générées incluent un cow-boy chevauchant un cheval, un travelling rapide dans une rue de banlieue, des brochettes grillant sur un barbecue, un time-lapse de l'éclosion d'un tournesol, et plus encore. On remarque l'absence de représentations détaillées d'êtres humains, une tâche historiquement difficile pour les modèles d'intelligence artificielle de synthèse d'images et de vidéos sans déformations évidentes. Google explique que Veo s'appuie sur ses précédents modèles de génération vidéo, tels que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere. Pour améliorer la qualité et l'efficacité, ses données d'entraînement incluent des légendes plus détaillées et utilisent des représentations latentes compressées. Cela permet à l'IA d'interpréter plus précisément les invites textuelles.





Veo supporte également les commandes de réalisation de films. Lorsqu'on lui fournit une vidéo d'entrée et une commande d'édition, comme ajouter des kayaks à une vue aérienne d'une côte, il peut appliquer cette commande à la vidéo initiale et en créer une nouvelle éditée. Bien que les démonstrations soient impressionnantes au premier abord (surtout en comparaison avec des vidéos humoristiques comme celle de Will Smith mangeant des spaghettis), Google reconnaît que la génération est difficile. "Maintenir une cohérence visuelle peut être un défi pour les modèles de génération vidéo", écrit la société. "Les personnages, objets ou même des scènes entières peuvent scintiller, sauter ou se déformer de manière inattendue entre les frames, perturbant l'expérience de visionnage. Google a tenté de réduire ces inconvénients avec des transformateurs de diffusion latente de pointe, bien que cette expression soit essentiellement du jargon marketing sans précisions.


Le géant américain est suffisamment confiant avec son modèle pour collaborer avec l'acteur Donald Glover et son studio, Gilga, afin de créer un film de démonstration qui sera bientôt dévoilé. Veo sera accessible à des créateurs sélectionnés via VideoFX, un nouvel outil expérimental disponible sur le site AI Test Kitchen. Ils peuvent rejoindre une liste d'attente afin de potentiellement accéder aux fonctionnalités dans les semaines à venir. Google prévoit d'intégrer certaines des capacités de Veo dans YouTube Shorts et d'autres produits à l'avenir. Pour l'instant, aucune information n'a été donnée sur la provenance des données d'entraînement (on peut supposer que YouTube a probablement été impliqué). L'entreprise affirme adopter une approche responsable. Les vidéos créées par le modèle sont marquées avec SynthID, leur outil de pointe pour le marquage et l'identification des contenus générés par l'IA, et passent par des filtres de sécurité et des processus de vérification de la mémorisation qui aident à atténuer les risques de confidentialité, de droits d'auteur et de biais. Google s'avance donc dans le futur de la création vidéo, promettant des outils de plus en plus sophistiqués pour les créateurs de contenu. Bien que les défis techniques soient nombreux, les progrès réalisés offrent un aperçu fascinant des possibilités à venir.
Plus récente Plus ancienne