Experimento con IA: cómo creamos un video de Emmie con Google Veo 3
¿Por qué este experimento?
En Terranoha, nuestro enfoque se basa en la curiosidad y la exploración práctica de tecnologías emergentes. Cuando Google DeepMind lanzó Veo 3, su nueva herramienta experimental de generación de video con IA, quisimos entender cómo se comporta realmente, más allá de las demostraciones teóricas.
Nuestro objetivo era simple:
- Probar qué puede ofrecer realmente Veo 3 hoy
- Identificar sus limitaciones técnicas en un contexto profesional
- Explorar cómo producir un video profesional corto usando únicamente prompts de texto
Para ello, elegimos un caso de uso concreto: crear un video de presentación de Emmie, nuestra agente virtual dedicada a los workflows de trading, en un entorno realista.
Lo que promete Veo 3
Sobre el papel, Veo 3 ofrece capacidades impresionantes:
- Generación de videos en 1080p a partir de prompts de texto
- Múltiples estilos visuales (cinematográfico, animado, documental…)
- Consistencia visual y temporal
- Integración de voz en off mediante audio o texto
Parece una solución prometedora para crear contenido audiovisual innovador.
Lo que encontramos en la práctica
Durante nuestra exploración en profundidad de Veo 3, nos encontramos con varias limitaciones importantes para nuestro caso de uso profesional:
- Duración muy limitada: máximo de 8 segundos por secuencia, lo que obligó a fragmentar artificialmente el video
- Problemas de sincronización de voz: a veces el audio no se generaba, a pesar de prompts bien formulados
- Inconsistencias en los subtítulos: a pesar de las actualizaciones de Google, seguimos enfrentando errores recurrentes
- Variabilidad en los resultados: incluso con descripciones muy detalladas de Emmie, su rostro cambiaba entre escenas, afectando la coherencia visual
- Voz inconsistente: a pesar de instrucciones idénticas, el tono de la voz de Emmie cambiaba, afectando la coherencia auditiva
- Generaciones poco realistas: algunos resultados presentaban expresiones extrañas, ángulos inusuales o movimientos antinaturales, lo que nos obligó a repetir varias veces para obtener clips utilizables
- Alto coste de experimentación: Veo 3 utiliza créditos de Google Cloud. 20.000 créditos cuestan 200 USD. Un video de 8 segundos consume unos 100 créditos (aprox. 1 USD por 8 segundos). El coste total puede aumentar rápidamente.
Estas limitaciones demuestran que Veo 3 sigue siendo una herramienta experimental y aún no apta para una producción profesional exigente.
Nuestra metodología
Así es como optimizamos el uso de Veo 3:
- Usar “Veo 3 quality”
Incluir esta frase en cada prompt para obtener el mejor renderizado posible. - Definir con máximo detalle la identidad del personaje
Describir a los personajes con gran precisión (apariencia, vestimenta, actitud…). ChatGPT puede ayudar a refinar estas descripciones. - Especificar el entorno con precisión
Cada elemento de la escena debe estar definido: estilo, objetos, iluminación, ambiente. Cada detalle cuenta. - Dirección de escena
Dar instrucciones exactas sobre movimientos e interacciones para minimizar malentendidos. - Diálogos breves y claros
Con el límite de 8 segundos, cada línea debe ser concisa y eficiente. - Revisar siempre los scripts tras resultados insatisfactorios
Si el resultado no es bueno, ajuste el wording. Repetir el mismo prompt suele dar peores resultados.
Nuestros scripts y prompts
Pueden descargar los scripts y prompts completos que utilizamos en este experimento:
Resultado final
A pesar de las limitaciones, nuestro proceso nos permitió crear un video alineado con nuestra visión original de Emmie: profesional, fluido, coherente visualmente y adaptado al entorno del trading.
Conclusión y perspectivas
Este experimento con Google Veo 3 nos dio una visión más profunda de las capacidades —y los límites— actuales de la generación de video por IA. Aunque sigue siendo experimental e imperfecta, Veo 3 ofrece un avance prometedor hacia el futuro de la creación audiovisual inteligente.
Seguiremos explorando estas tecnologías emergentes para seguir mejorando la experiencia ofrecida por Emmie.