Pourquoi cette expérimentation ?
Chez Terranoha, notre démarche est guidée par la curiosité et l’exploration concrète des technologies émergentes. Lorsque Google DeepMind a publié Veo 3, son nouvel outil expérimental de génération vidéo par IA, nous avons voulu comprendre ce qu’il valait réellement — au-delà des démonstrations théoriques.
Notre objectif était simple :
- Tester ce que Veo 3 est réellement capable de produire aujourd’hui
- Identifier ses limites techniques dans un cadre professionnel
- Explorer comment produire une courte vidéo professionnelle à partir de simples instructions textuelles
Pour cela, nous avons choisi un cas d’usage concret : créer une vidéo présentant Emmie, notre agent virtuel dédié aux workflows de trading, dans un environnement réaliste.
Ce que promet Veo 3
Sur le papier, Veo 3 offre des capacités impressionnantes :
- Génération de vidéos en 1080p à partir d’instructions textuelles
- Multiples styles visuels (cinématographique, animé, documentaire…)
- Cohérence temporelle et visuelle
- Intégration de voix off via des instructions audio ou texte
Cela semble être une solution prometteuse pour créer des contenus vidéo innovants.
Ce que nous avons réellement constaté
En explorant en profondeur Veo 3, nous avons rencontré plusieurs limites significatives pour notre cas d’usage professionnel :
- Durée très limitée : maximum 8 secondes par séquence, obligeant à fragmenter artificiellement la vidéo
- Problèmes de synchronisation audio : l’audio échouait parfois à se générer malgré des instructions précises
- Incohérences dans les sous-titres : malgré les récentes mises à jour de Google, nous avons constaté des erreurs récurrentes
- Variabilité des rendus : même avec des descriptions très détaillées d’Emmie, son visage changeait d’une séquence à l’autre, ce qui nuisait à la cohérence visuelle
- Voix inconstante : malgré des consignes identiques, le ton de la voix d’Emmie variait souvent, nuisant à l’homogénéité sonore
- Rendus irréalistes : plusieurs vidéos présentaient des anomalies visuelles (expressions figées, angles étranges, mouvements bizarres), nécessitant de nombreuses relances pour obtenir des séquences exploitables
- Coût élevé de l’expérimentation : Veo 3 utilise les crédits Google Cloud. 20 000 crédits coûtent 200 $. Une vidéo de 8 secondes consomme environ 100 crédits (soit 1 $ pour 8 secondes). Une expérimentation complète peut donc vite devenir onéreuse.
Ces contraintes concrètes montrent que Veo 3 reste un outil expérimental, encore loin d’être adapté à une production vidéo professionnelle exigeante.
Notre méthodologie
Voici comment nous avons optimisé notre utilisation de Veo 3 :
- Utiliser l’expression “Veo 3 quality”
À inclure dans chaque prompt pour obtenir un rendu optimal. - Définir l’identité du personnage avec une extrême précision
Décrire les personnages en détail (apparence, tenue, attitude…). ChatGPT peut vous aider à affiner ces descriptions. - Spécifier précisément l’environnement
Chaque élément de la scène doit être défini : style, objets, éclairage, ambiance. Chaque détail compte. - Donner des instructions claires sur la mise en scène
Décrire précisément les mouvements et interactions pour limiter les interprétations erronées. - Prévoir un dialogue court et clair
Avec la limite de 8 secondes, chaque ligne doit être concise et optimisée. - Reformuler systématiquement après un mauvais résultat
Si le rendu est insatisfaisant, ajustez le wording. Répéter exactement le même prompt donne souvent un résultat encore moins bon.
Nos scripts et prompts
Vous pouvez télécharger l’ensemble des scripts et instructions utilisés lors de cette expérimentation :
TÉLÉCHARGER LES SCRIPTS COMPLETS
Résultat final
Malgré les limitations, notre approche nous a permis de créer une vidéo fidèle à notre vision initiale d’Emmie : professionnelle, fluide, cohérente visuellement et adaptée à l’univers du trading.
Conclusion & perspectives
Cette expérimentation avec Google Veo 3 nous a permis de mieux comprendre les capacités — et les limites — actuelles de la génération vidéo par intelligence artificielle. Bien qu’imparfait et encore en phase expérimentale, Veo 3 offre un aperçu prometteur du futur de la création vidéo intelligente.
Nous continuerons d’explorer ces technologies émergentes pour enrichir encore davantage l’expérience utilisateur proposée par Emmie.