Experimento com IA: como criamos um vídeo da Emmie com o Google Veo 3
Por que esse experimento?
Na Terranoha, nossa abordagem é guiada pela curiosidade e pela exploração prática de tecnologias emergentes. Quando o Google DeepMind lançou o Veo 3, sua nova ferramenta experimental de geração de vídeo com IA, quisemos entender como ele realmente se comporta — além das demonstrações teóricas.
Nosso objetivo era simples:
- Testar o que o Veo 3 é capaz de entregar hoje
- Identificar suas limitações técnicas em um contexto profissional
- Explorar como produzir um vídeo profissional curto usando apenas prompts de texto
Para isso, escolhemos um caso de uso concreto: criar um vídeo apresentando a Emmie, nossa agente virtual dedicada aos workflows de trading, em um ambiente realista.
O que o Veo 3 promete
No papel, o Veo 3 oferece recursos impressionantes:
- Geração de vídeos em 1080p a partir de prompts de texto
- Vários estilos visuais (cinematográfico, animado, documental…)
- Consistência visual e temporal
- Integração de narração com áudio ou texto
Parece ser uma solução promissora para a criação de conteúdo em vídeo inovador.
O que realmente encontramos
Ao explorar o Veo 3 em profundidade, nos deparamos com várias limitações importantes para nosso caso de uso profissional:
- Duração extremamente limitada: máximo de 8 segundos por sequência, forçando a fragmentação artificial do vídeo
- Problemas de sincronização de narração: o áudio às vezes falhava mesmo com prompts corretos
- Inconsistência nas legendas: apesar das atualizações do Google, ainda enfrentamos erros recorrentes
- Variabilidade dos prompts: mesmo com descrições muito detalhadas da Emmie, o rosto dela mudava entre as cenas, quebrando a consistência visual
- Voz inconsistente: apesar das instruções serem iguais, o tom da voz da Emmie variava, prejudicando a coerência sonora
- Gerações irreais: alguns vídeos apresentavam expressões estranhas, ângulos esquisitos ou movimentos artificiais, exigindo várias tentativas até obter trechos utilizáveis
- Alto custo de experimentação: o Veo 3 usa créditos do Google Cloud. 20.000 créditos custam US$ 200. Um vídeo de 8 segundos consome cerca de 100 créditos (cerca de US$ 1 por 8 segundos). Uma experiência completa pode ficar cara rapidamente.
Essas limitações mostram que o Veo 3 ainda é experimental e não está pronto para produções profissionais exigentes.
Nossa metodologia
Veja como otimizamos o uso do Veo 3:
- Usar “Veo 3 quality”
Incluir essa expressão em todos os prompts para obter o melhor resultado possível. - Definir com detalhes a identidade dos personagens
Descrever os personagens com precisão extrema (aparência, roupa, comportamento…). O ChatGPT pode ajudar a refinar essas descrições. - Especificar o ambiente com precisão
Cada elemento da cena deve ser descrito: estilo, objetos, iluminação, clima. Cada detalhe importa. - Dar instruções claras de direção
Indicar movimentos e interações de forma exata para evitar interpretações erradas. - Diálogos curtos e objetivos
Com o limite de 8 segundos, cada fala precisa ser curta e eficiente. - Revisar o script após cada erro
Se o resultado não for satisfatório, ajuste o texto. Repetir exatamente o mesmo prompt costuma gerar resultados piores.
Nossos scripts e prompts
Você pode baixar todos os scripts e prompts usados neste experimento:
Resultado final
Apesar das limitações, conseguimos criar um vídeo que reflete nossa visão original da Emmie: profissional, fluido, visualmente coerente e adaptado ao universo do trading.
Conclusão e perspectivas
Este experimento com o Google Veo 3 nos permitiu entender melhor as capacidades — e os limites — atuais da geração de vídeo com inteligência artificial. Embora ainda seja imperfeito e experimental, o Veo 3 oferece uma prévia promissora do futuro da criação inteligente de conteúdo audiovisual.
Vamos continuar explorando essas tecnologias emergentes para aprimorar ainda mais a experiência oferecida pela Emmie.