Este Recurso Está Tornando a IA Finalmente Útil

Os assistentes baseados em IA generativa, como ChatGPT e Copilot, já demonstraram ser muito mais eficientes na compreensão e resposta às nossas perguntas. No entanto, eles estão prestes a se tornar significativamente mais úteis, pois estão evoluindo além da interação puramente baseada em texto.

A Evolução para a IA Multimodal

Até agora, nossa interação com essas ferramentas tem se limitado à entrada de texto (escrita ou fala convertida em texto) e à recepção de respostas em texto (que depois podem ser convertidas em fala). Embora isso seja uma progressão natural, visto que já estamos acostumados a interagir verbalmente com assistentes de primeira geração, essa abordagem é bastante limitada em comparação com o potencial real dos modelos de IA.

A grande novidade que todos os assistentes de IA estão prestes a incorporar é a IA Multimodal. Trata-se de uma abordagem inteligente que permite à IA raciocinar utilizando diferentes tipos de dados simultaneamente, e não apenas um formato de informação como acontece atualmente.

A IA multimodal pode integrar e analisar múltiplas formas de dados, incluindo:

  • Texto e voz (como já fazemos hoje, mas de forma integrada).
  • Áudio, como música ou sons ambientais.
  • Imagens, seja algo capturado pela câmera ou exibido na tela do dispositivo.
  • Vídeo, capturado pela câmera ou exibido na tela.

Exemplos Práticos da IA Multimodal

Durante o Snapdragon Summit, foram apresentados exemplos de como essa tecnologia será aplicada, especialmente com o novo chipset Snapdragon 8 Elite, rodando em dispositivos de referência.

1. Análise e Cálculo de Documentos

Uma demonstração prática envolveu apontar o celular para uma conta de restaurante. O assistente de IA foi capaz de:

  • Reconhecer que o documento era uma conta de restaurante.
  • Identificar qual valor era o total da conta.
  • Calcular a gorjeta com base no valor total.
  • Dividir o valor final de várias maneiras conforme solicitado.

2. Resolução de Problemas Visuais e Matemáticos

Outro exemplo envolvia apresentar um problema matemático que não estava apenas em texto, mas em uma imagem:

  • A IA reconheceu o que a questão pedia.
  • Identificou visualmente as dimensões (comprimento e largura) de um objeto na imagem.
  • Aplicou a fórmula necessária para calcular a área com base nessas dimensões e forneceu a resposta.

Essa capacidade não se restringe à câmera. A IA pode analisar o que está sendo exibido na tela do seu dispositivo e responder a perguntas sobre o conteúdo, utilizando também dados contextuais como sua localização, preferências pessoais ou até mesmo dados de saúde, se você conceder acesso a eles (como e-mails ou um Knowledge Graph pessoal).

Embora a interação possa continuar por voz ou digitação, futuramente será possível anexar fotos adicionais às perguntas. Essas capacidades tornarão os assistentes de IA muito mais úteis, pois eles começarão a processar o mundo de forma mais semelhante à maneira como os humanos o fazem.

Dispositivos e Desempenho

Embora o smartphone seja o meio mais popular para a adoção dessa tecnologia, a IA multimodal não estará restrita a ele. Espera-se vê-la em:

  • Sistemas de Infoentretenimento de Carros: Permitindo o controle do veículo através de gestos capturados por câmeras no painel.
  • Smartwatches: Processando dados biométricos em conjunto com comandos de voz.
  • Ferramentas de Diagnóstico e Robôs Industriais: Em praticamente qualquer dispositivo com capacidade de processamento visual ou auditivo.

No Snapdragon Summit, foi demonstrado um cenário de Realidade Estendida (XR) onde era possível olhar para uma mesa de pebolim sem mencioná-la, fazer perguntas sobre o que estava à vista (histórico do jogo, dicas, etc.) e fazer perguntas de acompanhamento.

À medida que os dispositivos se tornam menores, como os óculos inteligentes, essas funcionalidades multimodais (como traduzir placas e menus) poderão ser utilizadas de maneira ainda mais integrada no dia a dia.

O Poder do Processamento Local

Um fator crucial para o sucesso dessa tecnologia é que todas essas operações de IA multimodal estão sendo executadas localmente no dispositivo. Isso traz benefícios significativos:

  • Melhor Privacidade: Os dados não precisam sair do aparelho.
  • Respostas Mais Rápidas: Elimina a latência da comunicação com a nuvem.
  • Independência de Conexão: Não há necessidade de conexão com a internet.
  • Economia de Energia e Custo.

A nova plataforma Snapdragon 8 Elite mostra melhorias notáveis em relação ao ano anterior:

  • Inferência 45% mais rápida para este tipo de processamento de dados.
  • Melhor desempenho por watt.
  • Capacidade de processar 70+ tokens por segundo (tokens sendo pedaços de texto, como uma palavra, que medem a velocidade de inferência da IA).

Em algumas demonstrações, a velocidade observada foi de mais de 110 tokens por segundo, o que gera uma sensação de resposta quase instantânea, essencial para que a IA seja verdadeiramente assistiva.

Otimização de Software

Para alcançar essa velocidade, é vital usar Modelos de Linguagem Grande (LLMs) otimizados para o hardware específico. Um modelo otimizado pode aumentar a inferência em até quatro vezes.

O Qualcomm AI Hub é uma plataforma online onde desenvolvedores podem otimizar seus aplicativos para IA no dispositivo. Ele já possui uma biblioteca com mais de 100 modelos otimizados, e continua a adicionar suporte para novos LLMs, como o Granite da IBM e o modelo Mistral (francês), ampliando as línguas e funções disponíveis para essas novas capacidades multimodais.