Início Tecnologia Vera Rubin da Nvidia está a meses de distância – Blackwell está...

Vera Rubin da Nvidia está a meses de distância – Blackwell está ficando mais rápido agora

15
0

A grande notícia desta semana da Nvidia, espalhada pelas manchetes em todas as formas de mídia, foi o anúncio da empresa sobre sua GPU Vera Rubin.

Esta semana, o CEO da Nvidia, Jensen Huang, usou sua palestra na CES para destacar as métricas de desempenho do novo chip. De acordo com Huang, a GPU Rubin é capaz de 50 PFLOPs de inferência NVFP4 e 35 PFLOPs de desempenho de treinamento NVFP4, representando 5x e 3,5x o desempenho da Blackwell.

Mas só estará disponível no segundo semestre de 2026. Então, o que as empresas deveriam fazer agora?

Blackwell continua melhorando

A atual arquitetura de GPU da Nvidia é Blackwell, que foi anunciado em 2024 como sucessor de Hopper. Juntamente com esse lançamento, a Nvidia enfatizou que seu caminho de engenharia de produto também incluía extrair o máximo de desempenho possível da arquitetura Grace Hopper anterior.

É uma direção que também valerá para a Blackwell, com Vera Rubin chegando ainda este ano.

“Continuamos otimizando nossas pilhas de inferência e treinamento para a arquitetura Blackwell”, disse Dave Salvator, diretor de produtos de computação acelerada da Nvidia, ao VentureBeat.

Na mesma semana em que Vera Rubin foi elogiada pelo CEO da Nvidia como sua GPU mais poderosa de todos os tempos, a empresa publicou um novo pesquisar mostrando melhor desempenho da Blackwell.

Como o desempenho da Blackwell melhorou a inferência em 2,8x

A Nvidia conseguiu aumentar o desempenho da GPU Blackwell em até 2,8x por GPU em um período de apenas três meses.

Os ganhos de desempenho vêm de uma série de inovações que foram adicionadas ao mecanismo de inferência Nvidia TensorRT-LLM. Essas otimizações se aplicam ao {hardware} existente, permitindo que as implantações atuais da Blackwell alcancem maior rendimento sem alterações de {hardware}.

Os ganhos de desempenho são medidos no DeepSeek-R1, um modelo de mistura de especialistas (MoE) de 671 bilhões de parâmetros que ativa 37 bilhões de parâmetros por token.

Entre as inovações técnicas que proporcionam o aumento de desempenho:

  • Lançamento dependente programático (PDL): A implementação expandida reduz as latências de inicialização do kernel, aumentando o rendimento.

  • Comunicação de todos para todos: A nova implementação de primitivas de comunicação elimina um buffer intermediário, reduzindo a sobrecarga de memória.

  • Previsão de vários tokens (MTP): Gera vários tokens por passagem direta, em vez de um de cada vez, aumentando o rendimento em vários comprimentos de sequência.

  • Formato NVFP4: Um formato de ponto flutuante de 4 bits com aceleração de {hardware} na Blackwell que reduz os requisitos de largura de banda de memória enquanto preserva a precisão do modelo.

As otimizações reduzem o custo por milhão de tokens e permitem que a infraestrutura existente atenda a maiores volumes de solicitações com menor latência. Os provedores de nuvem e as empresas podem dimensionar seus serviços de IA sem atualizações imediatas de {hardware}.

A Blackwell também obteve ganhos de desempenho no treinamento

Blackwell também é amplamente utilizado como um componente de {hardware} básico para treinar os maiores modelos de linguagem de grande porte.

A esse respeito, a Nvidia também relatou ganhos significativos para a Blackwell quando usada para treinamento de IA.

Desde o seu lançamento inicial, o sistema GB200 NVL72 proporcionou desempenho de treinamento até 1,4x maior no mesmo {hardware} – um aumento de 40% alcançado em apenas cinco meses sem quaisquer atualizações de {hardware}.

O impulso no treinamento veio de uma série de atualizações, incluindo:

  • Receitas de treinamento otimizadas. Os engenheiros da Nvidia desenvolveram receitas de treinamento sofisticadas que aproveitam efetivamente a precisão do NVFP4. Os envios iniciais da Blackwell usaram a precisão do FP8, mas a transição para receitas otimizadas para NVFP4 desbloqueou um desempenho adicional substancial do silício existente.

  • Refinamentos algorítmicos. Aprimoramentos contínuos da pilha de software program e melhorias algorítmicas permitiram que a plataforma extraísse mais desempenho do mesmo {hardware}, demonstrando inovação contínua além da implantação inicial.

Duplicar na Blackwell ou esperar por Vera Rubin?

Salvator observou que o Blackwell Extremely de última geração é uma plataforma líder de mercado construída especificamente para executar modelos e aplicativos de IA de última geração.

Ele adicionou que a plataforma Nvidia Rubin ampliará a liderança de mercado da empresa e permitirá que a próxima geração de MoEs potencialize uma nova classe de aplicações para levar a inovação em IA ainda mais longe.

Salvator explicou que o Vera Rubin foi construído para atender à crescente demanda por computação criada pelo crescimento contínuo no tamanho do modelo e pela geração de tokens de raciocínio a partir de modelos líderes como o MoE.

“Blackwell e Rubin podem servir os mesmos modelos, mas a diferença é o desempenho, a eficiência e o custo simbólico”, disse ele.

De acordo com os primeiros resultados dos testes da Nvidia, em comparação com Blackwell, Rubin pode treinar grandes modelos MoE em um quarto do número de GPUs, inferir a geração de tokens com 10 vezes mais rendimento por watt e inferir 1/10 do custo por token.

“Melhor desempenho e eficiência no rendimento do token significa que modelos mais novos podem ser construídos com mais capacidade de raciocínio e interação mais rápida entre agentes, criando melhor inteligência a um custo menor”, ​​disse Salvator.

O que tudo isso significa para os construtores empresariais de IA

Para as empresas que hoje implementam infraestruturas de IA, os investimentos atuais na Blackwell continuam sólidos, apesar da chegada de Vera Rubin no ultimate deste ano.

As organizações com implantações existentes da Blackwell podem capturar imediatamente a melhoria de inferência de 2,8x e o aumento de treinamento de 1,4x atualizando para as versões mais recentes do TensorRT-LLM – proporcionando economias reais de custos sem despesas de capital. Para aqueles que planejam novas implantações no primeiro semestre de 2026, faz sentido prosseguir com a Blackwell. Esperar seis meses significa atrasar iniciativas de IA e potencialmente ficar para trás dos concorrentes que já estão em implantação hoje.

No entanto, as empresas que planeiam construções de infraestruturas em grande escala para o ultimate de 2026 e posteriormente devem incluir Vera Rubin nos seus roteiros. A melhoria de 10x no rendimento por watt e 1/10 do custo por token representam uma economia transformacional para operações de IA em escala.

A abordagem inteligente é a implantação em fases: aproveite a Blackwell para necessidades imediatas enquanto arquiteta sistemas que podem incorporar Vera Rubin quando disponível. O modelo de otimização contínua da Nvidia significa que esta não é uma escolha binária; as empresas podem maximizar o valor das implementações atuais sem sacrificar a competitividade a longo prazo.

avots