Google I/O 2025: Tudo Revelado em 15 Minutos

Novidades do Google Apresentadas no Google I/O: A Evolução do Gemini

O Google I/O marcou o início de uma nova fase, centrada no Gemini. As inovações apresentadas apontam para uma integração cada vez mais profunda da Inteligência Artificial em diversas plataformas e experiências do usuário, desde comunicações até a forma como interagimos com a web e criamos conteúdo.

Google Beam: Comunicação Imersiva em 3D

Uma das grandes novidades é o Google Beam, uma nova plataforma de comunicação com foco em IA. O Beam utiliza um modelo de vídeo de última geração para transformar transmissões de vídeo 2D em uma experiência 3D realista.

O sistema funciona capturando o usuário através de um conjunto de seis câmeras posicionadas em diferentes ângulos. A Inteligência Artificial é então usada para mesclar esses fluxos de vídeo e renderizar a pessoa em um display de campo de luz 3D. Em colaboração com a HP, os primeiros dispositivos Google Beam estarão disponíveis para clientes selecionados no final deste ano.

Tradução em Tempo Real no Google Meet

Outra integração prática é a introdução da tradução de fala em tempo real diretamente no Google Meet. Atualmente, a tradução entre inglês e espanhol já está disponível para assinantes, com mais idiomas sendo implementados nas próximas semanas. Essa funcionalidade será expandida para empresas ainda este ano.

Project Mariner e Agentes de IA

Foi apresentado o Project Mariner, um protótipo de agente capaz de interagir com a web para realizar tarefas complexas. Um exemplo prático demonstra como o agente pode buscar apartamentos para três pessoas em Austin, respeitando um orçamento de $1.200 mensais por pessoa e exigindo comodidades como lavanderia próxima.

Usando o modo de agente, o aplicativo Gemini acessa sites como Zillow, ajustando filtros específicos com o auxílio do Project Mariner. Uma versão experimental deste modo de agente chegará aos assinantes em breve.

Contexto Pessoal e Gemini 2.5 Pro

A evolução para tornar os agentes mais úteis passa pelo conceito de Contexto Pessoal. Com a permissão do usuário, os modelos Gemini podem utilizar contexto relevante de outros aplicativos Google de maneira privada, transparente e sob total controle do usuário.

Um exemplo disso é a aplicação no Gmail, aprimorando os *smart replies* (respostas inteligentes). O Gemini 2.5 Pro, descrito como o modelo mais inteligente já criado, possibilitará que as respostas sugeridas tenham o estilo de escrita do próprio usuário (as chamadas “respostas inteligentes personalizadas”).

O Gemini 2.5 Pro já teve uma prévia de sua atualização liberada, permitindo que desenvolvedores começassem a construir com ele. Além disso, uma versão atualizada do 2.5 Flash foi lançada, mostrando melhorias em raciocínio, código e contexto longo. O Flash estará disponível para o público geral no início de junho, com o Pro vindo logo depois. Ambas as versões podem ser testadas no AI Studio, Vertex AI e no aplicativo Gemini.

Avanços em Text-to-Speech

Novas prévias de conversão de texto em fala (text-to-speech) foram introduzidas, incluindo suporte inédito para múltiplos falantes (duas vozes). Isso permite que o modelo dialogue de maneira mais expressiva, capturando nuances sutis da fala humana. Esta funcionalidade suporta mais de 24 idiomas e pode alternar entre eles facilmente, estando disponível via Gemini API.

Capacidades de Codificação e Deep Think

O Gemini 2.5 Pro demonstrou excelente capacidade de codificação. Foi mostrado um exemplo de criação rápida de um aplicativo web simples no Google AI Studio.

Para elevar ainda mais o desempenho, foi anunciado o modo Deep Think para o 2.5 Pro. Este modo maximiza o desempenho do modelo, utilizando pesquisas de ponta em pensamento e raciocínio para alcançar resultados inovadores. O Deep Think será disponibilizado inicialmente para testadores confiáveis via Gemini API antes de seu lançamento amplo.

Gemini como Modelo Mundial

O objetivo final é transformar o Gemini, que já é um excelente modelo fundacional multimodal, em um Modelo Mundial. Um Modelo Mundial seria capaz de planejar e simular novas experiências, imitando aspectos do mundo real, de maneira semelhante ao cérebro humano.

Em parceria com a Be My Eyes (IRA), foi desenvolvido um protótipo usando a tecnologia Astra para auxiliar pessoas cegas ou com baixa visão a navegar o mundo, oferecendo acesso a intérpretes visuais humanos através de IA.

Busca Aprimorada com IA e Personalização

Um modo de IA totalmente novo para a busca foi lançado nos Estados Unidos, oferecendo uma experiência de busca ponta a ponta com IA. A partir desta semana, o Gemini 2.5 chega à busca com este modo, gerando respostas completas, citando links e fontes descobertas, além de incluir informações de comerciantes e negócios relevantes.

Em breve, o modo IA oferecerá sugestões personalizadas baseadas no histórico de buscas do usuário. O usuário também poderá optar por conectar outros apps Google, como o Gmail, utilizando o Contexto Pessoal para refinar as respostas da busca.

O modo de busca avançada, chamado Deep Search, multiplica a técnica de “query fan out” (disparo de múltiplas consultas), executando dezenas ou centenas de buscas em nome do usuário para criar relatórios totalmente citados em minutos.

Search Live e Experiências Visuais

As capacidades de vídeo ao vivo do Project Astra foram integradas ao modo IA, criando o Search Live. Usando a câmera, a busca pode “ver” o que o usuário vê e fornecer informações úteis em tempo real.

No aspecto de compras, foi introduzido um recurso de visual shopping e checkout com agente, com lançamento nos próximos meses. Um recurso de experimentação virtual de roupas (try on) também está sendo lançado em laboratórios, permitindo que os usuários visualizem como estilos ficariam neles, utilizando um modelo de geração de imagem customizado, treinado especificamente para moda.

Gemini Live e Criação Multimodal

Cinco atualizações principais foram destacadas:

1. Gemini Live: Aprimoramento da interatividade e naturalidade das conversas, agora suportando mais de 45 idiomas em mais de 150 países. O Gemini Live agora inclui compartilhamento de câmera e tela, estando disponível gratuitamente no aplicativo Gemini para Android e iOS.
2. Deep Research com Upload de Arquivos: Agora é possível enviar arquivos próprios para guiar o agente de pesquisa, com a funcionalidade de pesquisar em Google Drive e Gmail chegando em breve.
3. Canvas: O espaço interativo de cocriação do Gemini permitirá transformar relatórios de pesquisa em páginas web dinâmicas, infográficos, quizzes ou até podcasts customizados em 45 idiomas com um único toque.
4. Gemini no Chrome: Um assistente de IA integrado ao navegador para desktop, que entende automaticamente o contexto da página que está sendo visualizada para responder perguntas.
5. Imagine 4: O modelo de geração de imagens mais recente no aplicativo Gemini. O Imagine 4 demonstra maior capacidade criativa, acertando texto e ortografia, além de tomar decisões criativas sobre layout e fonte, como demonstrado na criação de um pôster de festival de música.

Além disso, o novo modelo V3 oferece geração de áudio nativa, permitindo que personagens gerados falem com alta qualidade de áudio.

Lyria 2 e Ferramentas para Criadores

O Lyria 2, lançado recentemente, gera música de alta fidelidade e áudio profissional, com vocais, solos e coros expressivos, e está disponível para empresas, criadores do YouTube e músicos.

A segurança da mídia gerada é reforçada com o detector Synth ID, que identifica marcas d’água invisíveis em mídia gerada por IA (imagem, áudio, texto ou vídeo), com distribuição para testadores iniciais começando hoje.

Para cineastas, novas funcionalidades garantem consistência de personagens, cenas e estilos ao gerar vídeos, além de permitir instruções precisas de câmera. A ferramenta de criação de filmes Flow combina o melhor do V3, Imagine e Gemini, permitindo descrever cenas complexas e controles de câmera com um único prompt.

Android XR e Computação Espacial

Para formatos emergentes como a Realidade Estendida (XR), o Android XR foi construído em colaboração com a Samsung e otimizado com a Qualcomm. O primeiro dispositivo, o Project Muhan da Samsung, será um dispositivo Android XR, disponível para compra no final do ano.

Os óculos baseados em Android XR são leves, projetados para uso diário, e incluem câmera, microfones, alto-falantes e um display opcional *in-lens* para informações privadas. Eles se conectam ao celular, oferecendo acesso a aplicativos com as mãos livres. Um breve *demo* demonstrou a capacidade de interagir com o Gemini através dos óculos, identificando objetos como uma xícara de café e lendo mensagens recebidas.

Perguntas Frequentes

Perguntas Frequentes

  • O que é o Google Beam?
    É uma nova plataforma de comunicação baseada em IA que transforma fluxos de vídeo 2D em uma experiência imersiva 3D, utilizando dados de múltiplas câmeras.
  • Como funciona a tradução de fala no Google Meet?
    O Gemini introduz tradução de fala em tempo real para assinantes, com suporte inicial para inglês e espanhol, e expansão para mais idiomas em breve.
  • O que é o Contexto Pessoal no Gemini?
    É um recurso que, com permissão, permite que os modelos Gemini utilizem informações relevantes de outros aplicativos Google do usuário para gerar respostas mais contextuais e personalizadas.
  • Qual a diferença entre Gemini 2.5 Pro e 2.5 Flash?
    O 2.5 Pro é o modelo mais inteligente e a base para recursos avançados, enquanto o 2.5 Flash é otimizado para ser mais rápido, com melhorias gerais em raciocínio, código e contexto longo.
  • É possível usar o Gemini para gerar vídeos com consistência?
    Sim, a ferramenta Flow combina V3, Imagine e Gemini para permitir que criadores descrevam cenas e personagens, mantendo a consistência visual ao longo da produção de vídeo.