Apresentando a Arquitetura Blackwell e o Futuro da IA
Apresentamos a mais nova arquitetura de GPU: a **GeForce RTX Série 50 Blackwell**. Esta nova GPU é uma verdadeira potência, ostentando impressionantes 192 bilhões de transistores.
Desempenho Gráfico e de IA
O poder de processamento desta nova geração é significativo, oferecendo:
* **4.000 TOPS de IA**, o que representa um aumento de três vezes em relação à geração anterior (Ada). Essa capacidade é crucial para gerar os *pixels* exibidos.
* **380 Teraflops de Ray Tracing**, necessário para computar os pixels e criar imagens de altíssima fidelidade.
* **125 Shader Teraflops**, com a capacidade adicional de processamento de *concurrent Shader Teraflops*.
* Unidades de *Integer* com desempenho equivalente, resultando em dois *shaders* duplos: um para ponto flutuante e outro para inteiros.
Em termos de memória, a GPU utiliza **HBM3e da Micron**, alcançando **1.8 Terabytes por Segundo**, o dobro da performance da geração anterior. Isso permite a coexistência e intermix de cargas de trabalho de IA com gráficos computacionais.
Um avanço notável nesta geração é que o *Shader* programável agora é capaz de processar redes neurais. Consequentemente, foram desenvolvidas novas técnicas como a **Neural Texture Compression** e o **Neural Material Shading** com a família RTX 50.
O artigo em texto destaca que uma RTX 5070 pode atingir o desempenho de uma 4090 por um preço sugerido de $549, um feito possível graças à inteligência artificial e aos núcleos de tensor com 4 Teraflops de capacidade de IA.
A linha completa da família Blackwell, da 570 à 590, foi revelada, com a 5090 oferecendo o dobro do desempenho da 4090. Espera-se a disponibilidade a partir de janeiro.
Inovação em Laptops e o Chip Monolítico
É notável o avanço em miniaturização, pois GPUs de altíssimo desempenho estão sendo integradas em *laptops*. Um exemplo citado é um modelo 5070 para *laptop* com desempenho de 4090, com espessura de apenas 14.9 mm.
O foco se volta para um chip maior: **72 GPUs Blackwell**, com 144 *dies* (pastilhas). Este único chip atinge 1.4 Exaflops de performance em ponto flutuante de IA. Para comparação, um supercomputador inteiro alcançou recentemente um desempenho de um Exaflop, enquanto este único chip entrega 1.4 Exaflops. Ele possui 14 Terabytes de memória, com largura de banda de 1.2 Petabytes por segundo – um volume de dados comparável ao tráfego da internet global naquele momento. No total, este sistema contém 130 trilhões de transistores, 2592 núcleos de CPU, além de *networking* via chips ConnectX e NVLink *spine*.
NVIDIA Cosmos e o Futuro da Robótica
A empresa utilizou sua experiência para otimizar estes sistemas, transformando-os na suíte **Llama Neotron Suite de modelos abertos**. Esta suíte inclui modelos pequenos com tempo de resposta ultrarrápido (“Super Llama Neotron Supers”) e modelos avançados como o “Ultra Model”.
O Ultra Model pode servir como modelo professor (*teacher model*) para treinar outros modelos, atuar como avaliador de recompensas (*reward model evaluator*) ou juiz para verificar a qualidade das respostas de outros modelos. Ele pode ser destilado de diversas maneiras, funcionando como um modelo de conhecimento.
Um grande lançamento é o **Nvidia Cosmos**, descrito como o primeiro modelo de fundação do mundo, treinado com 20 milhões de horas de vídeo. O foco do treinamento está em dinâmicas físicas: natureza, humanos caminhando, manipulação de objetos e movimentos rápidos de câmera. O objetivo é ensinar a IA a entender o mundo físico, e não apenas gerar conteúdo criativo.
Este entendimento físico permite várias aplicações:
* Geração de dados sintéticos para treinar outros modelos.
* Destilação para criar a base de modelos de robótica.
* Geração de cenários plausíveis para simulações complexas (“Doutor Estranho”).
* Habilidade de *captioning* de vídeos, com as legendas e vídeos sendo usados para treinar grandes modelos de linguagem multimodais.
A plataforma Cosmos inclui:
* Um modelo autorregressivo para aplicações em tempo real.
* Um modelo de difusão para geração de imagens de alta qualidade.
* Um *tokenizer* para aprender o vocabulário do mundo real.
* Um *pipeline* de dados acelerado de ponta a ponta, Cuda e acelerado por IA, para facilitar o treinamento com dados customizados.
O Cosmos é *open licensed* e está disponível no GitHub.
Processadores para o Setor Automotivo e Robótica Geral
Para o setor automotivo, a próxima geração de processadores foi nomeada **Thor**. Este chip é um computador de robótica capaz de processar uma quantidade massiva de informações de sensores (câmeras de alta resolução, radares, LiDARs), transformá-las em *tokens*, processá-las em um *Transformer* e prever o próximo caminho.
O computador de assistência à condução (*AV computer*) Thor está em plena produção e oferece 20 vezes a capacidade de processamento da geração anterior (Orin), que atualmente é o padrão da indústria de veículos autônomos.
Este processador Thor também se destina a robôs completos, como AMRs (Robôs Móveis Autônomos) ou robôs humanoides. Ele é descrito como um **computador de robótica universal**, indicando que o momento “ChatGPT para robótica geral” está se aproximando. As tecnologias habilitadoras apontam para avanços rápidos em robótica geral nos próximos anos, cobrindo:
1. **Robôs Agênticos (Agênticos AI)**: Trabalhadores de informação que podem se beneficiar da infraestrutura de computação existente.
2. **Carros Autônomos**: Construídos sobre a infraestrutura de estradas e cidades já existentes.
3. **Robôs Humanoides**: Capazes de operar no mundo construído para humanos.
Supercomputador para IA – Project Digits
O mais novo supercomputador de IA é chamado **Project Digits**. Este sistema executa toda a pilha de software de IA da NVIDIA, incluindo o DGX Cloud. Ele pode ser acessado localmente ou remotamente, como um supercomputador em nuvem.
O coração deste sistema é um chip secreto, o **GB110**, a menor unidade Grace Blackwell já produzida, que já está em produção. Este chip foi desenvolvido em colaboração com a MediaTek, que ajudou a construir a CPU Grace, conectando-a via NVLink *chip-to-chip* com a GPU Blackwell. Espera-se que este computador esteja disponível por volta de maio.
Perguntas Frequentes
- O que é a arquitetura Blackwell?
É a arquitetura da nova série de GPUs GeForce RTX 50, caracterizada por incluir 192 bilhões de transistores e um poder de processamento significativamente maior, especialmente para IA. - Como a IA está integrada nos novos *shaders*?
Os *shaders* programáveis agora são capazes de processar redes neurais, o que possibilitou o desenvolvimento de técnicas como a Neural Texture Compression e o Neural Material Shading. - Qual o propósito principal do modelo Nvidia Cosmos?
O Cosmos é um modelo de fundação treinado em 20 milhões de horas de vídeo focado em entender a física do mundo real (dinâmica, movimento humano, manipulação de objetos), servindo como base para robótica e treinamento de LLMs multimodais. - Por que o chip Thor é importante para robótica e veículos autônomos?
O Thor é um computador de robótica com 20 vezes a capacidade de processamento da geração anterior Orin, processando grandes volumes de dados de sensores (câmeras, LiDARs, radares) para prever caminhos e tomar decisões em ambientes não estruturados. - É possível usar o supercomputador Project Digits como uma estação de trabalho?
Sim, o Project Digits pode ser acessado como um supercomputador em nuvem ou conectado a um computador local, funcionando também como uma estação de trabalho avançada para aplicações de IA.






