A Revolução da Computação: Do Software-Defined ao Exascale e Além
A indústria de telecomunicações, assim como os data centers em nuvem, está cada vez mais se tornando software-defined. Essa transformação impulsionou um esforço de seis anos para refinar e otimizar uma pilha de Rede de Acesso por Rádio (RAN) totalmente acelerada. O objetivo era alcançar um desempenho impressionante em termos de taxa de dados por megawatt, ou taxa de dados por watt, colocando a solução em paridade com o estado da arte em ASICs.
Ao atingir esse nível de desempenho e funcionalidade, abriu-se a porta para a integração de Inteligência Artificial (IA). Muitas parcerias importantes estão em andamento, incluindo testes com SoftBank, T-Mobile, Indosat e Vodafone. Empresas como Nokia, Samsung e Kioxia estão colaborando no desenvolvimento da pilha completa, enquanto Fujitsu e Cisco trabalham na integração de sistemas. Essa colaboração permite a introdução da IA diretamente no 5G e no futuro 6G, estendendo-se à computação quântica.
Computação Quântica e a Plataforma CUDA Q
A computação quântica ainda se encontra no estágio de “Quantum de Escala Intermediária Ruidosa” (NISQ). No entanto, há muitas aplicações viáveis que já podem ser exploradas. Uma iniciativa em andamento é o desenvolvimento de uma plataforma de computação quântica-clássica, ou uma plataforma de computação com GPU quântica, chamada CUDA Q, em colaboração com diversas empresas globais.
As GPUs são essenciais para o pré-processamento e pós-processamento de dados, correção de erros e controle em sistemas quânticos. A previsão é que, no futuro, todos os supercomputadores incorporem aceleradores quânticos, ou QPUs, interconectados. Um supercomputador moderno será, essencialmente, um sistema composto por QPUs, GPUs e CPUs.
Avanços em IA e o Sistema Grace Blackwell
Nos últimos anos, o foco tem sido desenvolver um novo tipo de computador capaz de realizar o inference time scaling, permitindo um raciocínio incrivelmente rápido. Quando geramos muitas “tokens” ou pensamentos em nossa mente, passamos por um processo iterativo antes de chegar à resposta final. O que antes era IA de “tiro único” está evoluindo para IA de raciocínio, com escalonamento em tempo de inferência, o que exige um poder computacional muito maior.
Para atender a essa demanda, foi criado o sistema Grace Blackwell, que oferece capacidades cruciais de escalonamento vertical (scale up) e escalonamento horizontal (scale out).
- Scale Out: Conectar vários computadores para que o trabalho seja distribuído entre eles. Isso é considerado mais fácil.
- Scale Up: Transformar um computador em um computador gigante. Construir computadores maiores que excedam os limites da física de semicondutores é extremamente desafiador, e é exatamente isso que o Grace Blackwell realiza.
O Grace Blackwell superou muitos desafios de engenharia. Estamos felizes em anunciar que ele já está em produção total, embora o processo tenha sido extremamente complexo. Os sistemas Blackwell baseados em HGX estão em produção desde o final do ano passado e disponíveis desde fevereiro. Agora, estamos colocando online os sistemas Grace Blackwell, que estão sendo ativados diariamente em diversos locais, como na CoreWeave.
Conforme prometido anualmente, a performance da plataforma será incrementada a cada ano. No terceiro trimestre deste ano, haverá uma atualização para o Grace Blackwell GB300. Embora mantenha a mesma arquitetura, o mesmo footprint físico e as mesmas especificações elétricas e mecânicas, os chips internos foram aprimorados:
- O novo chip Blackwell oferece 1,5 vezes mais performance de inferência.
- Possui 1,5 vezes mais memória HBM.
- Tem 2 vezes mais capacidade de rede.
Isso resulta em um desempenho geral de sistema superior, possibilitando a criação de sistemas massivos baseados em chips Blackwell, interconectados via NVLink. Esta geração de tecnologia tornou possível a criação de sistemas impressionantes, como os apresentados por parceiros como Pegatron, QCT, Wistron, Foxconn, Gigabyte e ASUS.
NVLink Fusion: Infraestrutura de IA Semiacustomizada
O objetivo central é pegar esses chips Blackwell e fundi-los em um único sistema massivo. Essa capacidade é possibilitada pelo NVLink, mas subjacente a isso está a complexidade da arquitetura do sistema, um ecossistema de software rico e a colaboração de cerca de 150 empresas. Este trabalho colossal levou três anos e representa um investimento industrial massivo.
Agora, o objetivo é permitir que qualquer pessoa que deseje construir data centers possa utilizar essa tecnologia. Isso pode envolver sistemas baseados em NVIDIA GB200s ou GB300s, ou outros sistemas de computação acelerada da NVIDIA. Anunciamos hoje o NVIDIA NVLink Fusion, que permite a construção de infraestrutura de IA semiacustomizada, e não apenas chips semiacustomizados.
A ideia é que cada infraestrutura de IA possa ser ligeiramente diferente: algumas com mais CPUs, outras com mais GPUs NVIDIA, e algumas incorporando ASICs customizados. Historicamente, esses sistemas customizados são extremamente difíceis de construir porque lhes falta um ingrediente crucial: o NVLink, que permite o escalonamento vertical desses sistemas semiacustomizados.
O NVLink Fusion permite que você conecte seus TPUs ou ASICs especiais ao ecossistema. Isso é feito através de um chiplet NVLink, que funciona como um switch acoplado diretamente ao seu chip ASIC. Há um IP (Propriedade Intelectual) disponível para integração em ASICs semiacustomizados. Uma vez integrado, ele se encaixa perfeitamente nas placas de computação e no ecossistema de supercomputadores de IA já mencionados.
Se a preferência for usar sua própria CPU, o NVLink Fusion também facilita isso. É possível integrar a tecnologia NVIDIA ao seu ecossistema existente, fornecendo o chiplet NVLink chip-to-chip interface para seu ASIC. Ele se conecta aos chiplets NVLink e, subsequentemente, aos chips Blackwell e à próxima geração, os chips Ruben.
O DGX Spark estará disponível em breve, em poucas semanas, com a colaboração de parceiros como Dell, HPE, Asus, MSI, Gigabyte e Lenovo. O DGX Spark é uma unidade de produção, projetada para desenvolvedores de IA nativa, estudantes e pesquisadores que desejam ter sua própria “nuvem de IA” local, sempre ligada, para prototipagem e desenvolvimento.
O DGX Spark oferece um petaflop e 128 gigabytes de memória. Comparativamente, o DGX1 de 2016 tinha a mesma capacidade de processamento (um petaflop e 128 GB), mas a memória do Spark é LPDDR5X, enquanto a do DGX1 era HBM. A performance é semelhante, mas o avanço em dez anos é notável. O DGX Spark é capaz de rodar um modelo de IA de um trilhão de parâmetros com excelência, superando modelos como o Llama 70B.
O DGX Station, que é uma DGX pessoal, possui o mesmo modelo de programação dos sistemas gigantescos. O novo RTX Pro Enterprise e o servidor Omniverse são projetados para rodar tudo: sistemas x86, hipervisores clássicos e Kubernetes. Isso permite que os departamentos de TI gerenciem redes e orquestrem cargas de trabalho exatamente como desejam, podendo até transmitir desktops virtuais como Citrix.
IA para Agentes, Robótica e Gêmeos Digitais
Este servidor é o computador para agentes de IA empresariais. Esses agentes podem ser baseados em texto, gráficos (como pequenos TJs, ou pequenos Jensen, gerando gráficos), ajudando no trabalho. Eles podem operar em múltiplas modalidades: texto, gráficos ou vídeo. Qualquer modelo ou aplicação conhecida deve rodar neste sistema.
Para que a robótica aconteça, é necessária IA. E para ensinar essa IA, também é necessária IA. A era dos agentes exige uma grande quantidade de geração de dados sintéticos, robótica, e aprendizado de habilidade (fine-tuning), que envolve muito aprendizado por reforço e um volume massivo de computação.
A robótica humanoide é crucial devido à escassez global de mão de obra. Robôs humanoides podem ser implantados em quase qualquer lugar, adaptando-se ao ambiente existente (brownfield), realizando tarefas para as quais fomos projetados, e ajustando-se ao mundo que criamos.
A tecnologia de robótica, para atingir a escala necessária para que o efeito de escala se inicie, exige um alto volume de adoção, algo que sistemas de baixo volume raramente conseguem. A robótica é vista como a próxima indústria de vários trilhões de dólares, com inovação tecnológica rápida e consumo enorme de centros de dados.
A robótica requer três componentes computacionais:
- Um computador para aprendizado de IA.
- Um computador para motor de simulação, onde a IA aprende a ser um robô em um ambiente virtual.
- O sistema de implantação.
Tudo que se move será robótico. Ao implantar robôs em fábricas, é fundamental lembrar que as fábricas já estão se tornando software-defined. Para que os robôs operem como uma frota, trabalhando em equipe em um ambiente que também é robótico, é essencial fornecer a eles o Omniverse para aprenderem a colaborar.
O Gêmeo Digital (Digital Twin) é a representação digital do robô, de todos os equipamentos e da própria fábrica. Esses gêmeos digitais aninhados são parte do que o Omniverse pode oferecer. Várias empresas parceiras, como Delta, WiiW, Pegatron, Foxconn, Gigabyte e Wistron, já estão utilizando gêmeos digitais. A TSMC está construindo um gêmeo digital de sua próxima fábrica.
Com $5 trilhões em plantas sendo planejadas globalmente nos próximos três anos devido à reindustrialização e realocação de cadeias de suprimentos, a utilização de gêmeos digitais é um passo fundamental para garantir que essas construções sejam eficazes e pontuais. Isso inclui até mesmo a criação de um novo tipo de fábrica, a Fábrica de IA da NVIDIA, que existe em seu Gêmeo Digital, assim como as fábricas da Gong e Gausong.
Ao criar a próxima geração de TI e uma nova indústria, estamos abrindo portas para oportunidades gigantescas. O futuro envolve construir fábricas de IA, agentes para empresas e robôs, em um ecossistema unificado por uma única arquitetura.
Perguntas Frequentes
- O que significa uma rede RAN ser “software-defined”?
Significa que as funções da Rede de Acesso por Rádio são implementadas primariamente através de software em vez de hardware dedicado, permitindo maior flexibilidade e otimização. - Qual a principal limitação da computação quântica atual mencionada?
A limitação principal é o estágio NISQ (Noisy Intermediate-Scale Quantum), indicando que os computadores quânticos ainda são ruidosos e de escala intermediária. - Qual a função do NVLink Fusion?
O NVLink Fusion permite a construção de infraestrutura de IA semiacustomizada, facilitando a integração de chips customizados (ASICs ou TPUs) com os chips NVIDIA, permitindo o escalonamento vertical desses sistemas. - Como o DGX Spark se compara ao DGX1?
Ambos entregam aproximadamente um petaflop de performance e 128 gigabytes de memória, mas o DGX Spark é uma evolução significativa que permite rodar modelos de IA muito maiores, como os de um trilhão de parâmetros, com o mesmo nível de performance de cerca de dez anos atrás. - Por que a robótica humanoide é considerada importante?
É vista como a única forma de robô que pode ser implantada em ambientes existentes (brownfield) e em larga escala para suprir a carência de mão de obra. - Qual o papel dos Gêmeos Digitais no futuro industrial?
Os Gêmeos Digitais, criados com o Omniverse, permitem simular e planejar fábricas, robôs e equipamentos antes da construção física, garantindo eficiência e precisão no planejamento de novas instalações.






