Explorando o Veo 3: A IA de Geração de Vídeo do Google no Gemini
Este artigo detalha como utilizar o Veo 3, o modelo de inteligência artificial generativa de vídeo mais recente do Google, diretamente na interface do Gemini. O Veo 3 traz a capacidade de gerar vídeos que incluem diálogos, áudio e efeitos sonoros integrados à criação de IA.
Para acessar e usar esta funcionalidade, é necessário possuir uma assinatura do Google AI Ultra.
Acessando o Veo 3 na Interface do Gemini
O processo para começar a gerar vídeos com o Veo 3 é simples, uma vez que você tenha a assinatura Ultra:
1. Acesse o Gemini: Faça login na sua conta Google e selecione o menu para encontrar e escolher a opção “Gemini”.
2. Verificação da Assinatura: Se você for um assinante Ultra, verá a indicação “Ultra” no canto superior direito, ao lado do seu avatar.
3. Janela de Prompt: Na parte inferior da interface do Gemini, localize a janela de prompt “Ask Gemini”.
4. Ativando o Gerador de Vídeo: Passe o mouse sobre o ícone que indica “video”. Você verá o texto “generate with Veo 3”. Clique neste ícone de vídeo, que ficará azul.
5. Modo de Criação: Ao ativar, o texto na janela de prompt mudará de “ask Gemini” para “describe your video”, indicando que você pode começar a elaborar o seu prompt para o Veo 3.
Criando Seu Primeiro Prompt
Para demonstrar o uso, será criado um prompt em tempo real na interface do Gemini.
1. Comece acessando a opção “new chat”.
2. Selecione “video” e depois “describe my video”.
3. Um prompt inicial será: “A man skipping laptops across a lake like you’re skipping rocks.” (Um homem pulando laptops sobre um lago como se estivesse pulando pedras.)
Ao submeter este prompt, o sistema informa que a geração do vídeo levará de 2 a 3 minutos. Outras gerações anteriores que incluíam narração levaram cerca de 5 minutos.
Ao reproduzir o vídeo gerado com o prompt inicial, notou-se que o personagem não estava jogando os laptops como se estivesse pulando pedras ou um disco (Frisbee); em vez disso, ele os estava jogando, e eles apenas quicavam na água.
Aprimorando a Clareza do Prompt
Para obter resultados mais precisos, é crucial ser mais descritivo no prompt:
* Controle Cinematográfico: Você pode incluir comandos específicos sobre a cena, como o tipo de plano. Por exemplo, foi solicitado um “medium close-up shot with the spaceship and an alien planet in the background” (plano médio fechado com a nave espacial e um planeta alienígena ao fundo).
* Correção de Ação: Como o primeiro resultado não mostrou o homem voando, o prompt foi editado para especificar que o homem deveria “fly up into the air and out of the frame” (voar para o ar e sair do quadro).
Mesmo com a segunda tentativa, o resultado não foi o esperado, mostrando uma transição para um plano mais aberto da mesa, com pernas de pássaros voando em direção ao teto. Além disso, o Veo 3 gerou legendas automáticas (closed captions) que estavam incorretas.
Na terceira tentativa, mesmo com o prompt mais claro, a ação desejada (o homem voando) não foi executada corretamente. O vídeo gerado apresentou mais efeitos de transição e o personagem segurava um livro, algo que não foi solicitado.
Especificações Técnicas das Gerações
Cada geração de vídeo com o Veo 3 demorou entre 3 a 5 minutos, um tempo um pouco maior que o do gerador de vídeo da OpenAI Sora.
As especificações dos arquivos gerados são:
* Formato: 16×9
* Resolução: 1280×720
* Duração: 8 segundos
* Tamanho do arquivo: Menos de 2 megabytes.
Os vídeos são apresentados em um reprodutor simples com botões de play/pause, um botão de mudo (sem controle de volume) e um botão de download no canto superior direito. Uma marca d’água “Veo” aparece no canto inferior direito.
Gerenciamento e Revisão dos Vídeos
Fora do player de vídeo, existem opções para feedback (indicar se a resposta foi boa ou ruim) e um botão para refazer o vídeo (“redo”) se você não estiver satisfeito com o resultado. Há também opções para compartilhar, ouvir a resposta do Gemini ou reportar um problema legal.
Para localizar gerações anteriores:
* Lista de Conversas: Você pode selecionar o vídeo desejado na lista de conversas no lado esquerdo da interface.
* Arquivos na Conversa: Clicar no botão “files in the chat” no canto superior direito exibirá todas as gerações de vídeo daquele *feed* específico.
Não foi encontrado um local centralizado para todos os vídeos gerados, sugerindo que nomear as conversas do Gemini de forma clara é a melhor prática para encontrá-los facilmente depois.
Adicionando Voz e Áudio
Para que um personagem de IA fale no vídeo com sincronia labial (lip-sync), é necessário instruir o Gemini a usar um “synchronized lip-sync voice over” e, em seguida, fornecer o *script* que a IA deve ler. O mesmo procedimento deve ser seguido para incluir narração, diálogos ou qualquer elemento específico de *sound design*.
Alternativas e Integrações
O artigo menciona que o Google Flow, projetado para criativos de vídeo, oferece mais ferramentas para construir narrativas, utilizar *frames* de gerações anteriores para manter a estética e o ambiente, e possui um sistema de arquivamento visual. O Flow também permite escolher diferentes modelos do Veo e selecionar o número de saídas por prompt. Uma cobertura detalhada do Google Flow será abordada em outro artigo futuro.
Atualmente, o Veo 3 está sendo integrado a outros produtos Google, como o Cloud Vertex AI para desenvolvedores, e seu uso através de APIs está permitindo o desenvolvimento de novas aplicações por terceiros.
Para finalizar, foi feita uma nova geração de vídeo utilizando o Google Flow para criar o encerramento do conteúdo, solicitando que um sapo lesse para a câmera: “Like and subscribe for more how-to videos from How to Do It All, and thanks for watching.”
Perguntas Frequentes
- Como faço para ativar a função de geração de vídeo no Gemini?
Faça login no Gemini, certifique-se de ter a assinatura Ultra, clique no ícone de vídeo na janela de prompt e aguarde a mudança para “describe your video”. - O que é necessário para adicionar voz e sincronia labial aos vídeos gerados?
Você deve instruir o Gemini a usar um “synchronized lip-sync voice over” e fornecer o texto exato do roteiro que a IA deve narrar. - Qual a duração padrão dos vídeos gerados pelo Veo 3?
Os vídeos gerados têm uma duração padrão de 8 segundos. - É possível encontrar todos os vídeos gerados em um único local?
Não foi encontrado um local único para todos os vídeos; eles aparecem nas conversas específicas do Gemini onde foram criados. - Por que devo usar o Google Flow em vez da interface direta do Gemini?
O Google Flow é voltado para criativos, oferecendo mais controle sobre a narrativa, estética consistente entre vídeos e um sistema de arquivamento visual.






