Reduzir o custo da inferência normalmente é uma combinação de {hardware} e software program. Uma nova análise divulgada quinta-feira pela Nvidia detalha como quatro provedores líderes de inferência estão relatando reduções de 4 a ten vezes no custo por token.
As drásticas reduções de custos foram alcançadas usando a plataforma Blackwell da Nvidia com modelos de código aberto. Os dados de implantação de produção de Baseten, DeepInfra, Fireworks AI e Collectively AI mostram melhorias significativas de custos em saúde, jogos, chat de agente e atendimento ao cliente à medida que as empresas escalam a IA de projetos piloto para milhões de usuários.
As reduções de custos de 4 a ten vezes relatadas pelos provedores de inferência exigiram a combinação do {hardware} Blackwell com dois outros elementos: pilhas de software program otimizadas e mudança de modelos proprietários para modelos de código aberto que agora correspondem à inteligência de nível de fronteira. Somente as melhorias de {hardware} proporcionaram ganhos de 2x em algumas implantações, de acordo com a análise. Alcançar maiores reduções de custos exigiu a adoção de formatos de baixa precisão, como NVFP4, e o afastamento de APIs de código fechado que cobram taxas premium.
A economia se mostra contra-intuitiva. A redução dos custos de inferência requer o investimento em infraestrutura de maior desempenho porque as melhorias no rendimento se traduzem diretamente em custos mais baixos por token.
“O desempenho é o que reduz o custo da inferência”, disse Dion Harris, diretor sênior de soluções hiperescaladoras de HPC e IA da Nvidia, ao VentureBeat em entrevista exclusiva. “O que estamos vendo na inferência é que o rendimento se traduz literalmente em valor actual em dólares e reduz o custo”.
Implantações de produção mostram reduções de custos de 4 a ten vezes
A Nvidia detalhou quatro implantações de clientes em uma postagem de weblog mostrando como a combinação da infraestrutura Blackwell, pilhas de software program otimizadas e modelos de código aberto proporcionam reduções de custos em diferentes cargas de trabalho do setor. Os estudos de caso abrangem aplicações de alto quantity onde a economia de inferência determina diretamente a viabilidade do negócio.
Sully.ai reduziu os custos de inferência de IA em saúde em 90% (uma redução de 10x), ao mesmo tempo que melhorou os tempos de resposta em 65%, mudando de modelos proprietários para modelos de código aberto executados na plataforma Blackwell da Baseten, de acordo com a Nvidia. A empresa devolveu mais de 30 milhões de minutos aos médicos ao automatizar tarefas médicas de codificação e anotações que antes exigiam entrada handbook de dados.
A Nvidia também relatou que o Latitude reduziu os custos de inferência de jogos em 4x para sua plataforma AI Dungeon, executando grandes modelos de mistura de especialistas (MoE) na implantação Blackwell da DeepInfra. O custo por milhão de tokens caiu de 20 centavos na plataforma Hopper anterior da Nvidia para 10 centavos na Blackwell, e depois para 5 centavos após a adoção do formato nativo de baixa precisão NVFP4 da Blackwell. O {hardware} sozinho proporcionou uma melhoria de 2x, mas chegar a 4x exigiu a mudança de formato de precisão.
A Sentient Basis obteve uma eficiência de custo 25% a 50% melhor para sua plataforma de chat de agente usando a pilha de inferência otimizada para Blackwell do Fireworks AI, de acordo com a Nvidia. A plataforma orquestra fluxos de trabalho multiagentes complexos e processou 5,6 milhões de consultas em uma única semana durante seu lançamento viral, mantendo baixa latência.
A Nvidia disse que a Decagon obteve uma redução de custo de 6x por consulta para suporte ao cliente de voz baseado em IA ao executar sua pilha multimodelo na infraestrutura Blackwell da Collectively AI. Os tempos de resposta permaneceram abaixo de 400 milissegundos, mesmo ao processar milhares de tokens por consulta, o que é basic para interações de voz em que atrasos fazem com que os usuários desliguem ou percam a confiança.
Fatores técnicos que impulsionam melhorias de 4x versus 10x
A faixa de reduções de custos de 4 a ten vezes nas implantações reflete diferentes combinações de otimizações técnicas, em vez de apenas diferenças de {hardware}. Três fatores emergem como impulsionadores principais: adoção de formato de precisão, opções de arquitetura de modelo e integração de pilha de software program.
Formatos de precisão mostram o impacto mais claro. O caso do Latitude demonstra isso diretamente. A mudança da Hopper para a Blackwell proporcionou uma redução de custos de 2x por meio de melhorias de {hardware}. A adoção do NVFP4, o formato nativo de baixa precisão da Blackwell, dobrou essa melhoria para 4x o whole. O NVFP4 reduz o número de bits necessários para representar os pesos e ativações do modelo, permitindo mais computação por ciclo de GPU, mantendo a precisão. O formato funciona particularmente bem para modelos MoE, onde apenas um subconjunto do modelo é ativado para cada solicitação de inferência.
A arquitetura do modelo é importante. Os modelos MoE, que ativam diferentes submodelos especializados com base nas entradas, beneficiam-se da estrutura NVLink da Blackwell, que permite a comunicação rápida entre especialistas. “Ter esses especialistas se comunicando através da estrutura NVLink permite que você raciocine muito rapidamente”, disse Harris. Modelos densos que ativam todos os parâmetros para cada inferência não aproveitam essa arquitetura de forma tão eficaz.
A integração da pilha de software program cria deltas de desempenho adicionais. Harris disse que a abordagem de co-design da Nvidia – onde {hardware} Blackwell, arquitetura escalonada NVL72 e software program como Dynamo e TensorRT-LLM são otimizados juntos – também faz a diferença. A implantação da Baseten para Sully.ai usou essa pilha integrada, combinando NVFP4, TensorRT-LLM e Dynamo para alcançar uma redução de custos de 10x. Os provedores que executam estruturas alternativas como o vLLM podem obter ganhos menores.
As características da carga de trabalho são importantes. Os modelos de raciocínio apresentam vantagens particulares na Blackwell porque geram significativamente mais tokens para obter melhores respostas. A capacidade da plataforma de processar essas sequências de token estendidas de forma eficiente por meio de serviço desagregado, onde o pré-preenchimento de contexto e a geração de token são tratados separadamente, torna as cargas de trabalho de raciocínio econômicas.
As equipes que avaliam possíveis reduções de custos devem examinar seus perfis de carga de trabalho em relação a esses fatores. Cargas de trabalho de alta geração de tokens usando modelos mistos de especialistas com a pilha de software program integrada da Blackwell se aproximarão da faixa de 10x. Volumes de tokens mais baixos usando modelos densos em estruturas alternativas chegarão perto de 4x.
O que as equipes devem testar antes de migrar
Embora esses estudos de caso se concentrem nas implantações da Nvidia Blackwell, as empresas têm vários caminhos para reduzir os custos de inferência. A série MI300 da AMD, Google TPUs e aceleradores de inferência especializados da Groq e Cerebras oferecem arquiteturas alternativas. Os provedores de nuvem também continuam otimizando seus serviços de inferência. A questão não é se a Blackwell é a única opção, mas se a combinação específica de {hardware}, software program e modelos atende a requisitos específicos de carga de trabalho.
As empresas que consideram a inferência baseada em Blackwell devem começar por calcular se as suas cargas de trabalho justificam mudanças na infraestrutura.
“As empresas precisam trabalhar com base em suas cargas de trabalho, casos de uso e restrições de custo”, disse Shruti Koparkar, advertising de produtos de IA da Nvidia, ao VentureBeat.
Todas as implantações que alcançaram melhorias de 6 a ten vezes envolveram aplicativos de alto quantity e sensíveis à latência, processando milhões de solicitações mensalmente. As equipes que executam volumes menores ou aplicativos com orçamentos de latência superiores a um segundo devem explorar a otimização de software program ou a troca de modelos antes de considerar atualizações de infraestrutura.
Os testes são mais importantes do que as especificações do fornecedor. Koparkar enfatiza que os provedores publicam métricas de rendimento e latência, mas estas representam condições ideais.
“Se for uma carga de trabalho altamente sensível à latência, eles podem querer testar alguns provedores e ver quem atende ao mínimo necessário, mantendo o custo baixo”, disse ela. As equipes devem executar cargas de trabalho de produção reais em vários fornecedores da Blackwell para medir o desempenho actual de acordo com seus padrões de uso e picos de tráfego específicos, em vez de depender de benchmarks publicados.
A abordagem faseada utilizada pelo Latitude fornece um modelo para avaliação. A empresa primeiro migrou para o {hardware} Blackwell e mediu uma melhoria de 2x, depois adotou o formato NVFP4 para atingir uma redução whole de 4x. As equipes atualmente no Hopper ou em outra infraestrutura podem testar se as alterações precisas no formato e a otimização do software program no {hardware} existente capturam economias significativas antes de se comprometerem com migrações completas da infraestrutura. A execução de modelos de código aberto na infraestrutura atual pode proporcionar metade da redução potencial de custos sem novos investimentos em {hardware}.
A seleção do provedor requer a compreensão das diferenças na pilha de software program. Embora vários fornecedores ofereçam infraestrutura Blackwell, suas implementações de software program variam. Alguns executam a pilha integrada da Nvidia usando Dynamo e TensorRT-LLM, enquanto outros usam estruturas como vLLM. Harris reconhece que existem deltas de desempenho entre essas configurações. As equipes devem avaliar o que cada provedor realmente executa e como ele atende aos requisitos de carga de trabalho, em vez de presumir que todas as implantações da Blackwell tenham desempenho idêntico.
A equação econômica vai além do custo por token. Provedores de inferência especializados como Baseten, DeepInfra, Fireworks e Collectively oferecem implantações otimizadas, mas exigem o gerenciamento de relacionamentos adicionais com fornecedores. Os serviços gerenciados da AWS, Azure ou Google Cloud podem ter custos por token mais elevados, mas menor complexidade operacional. As equipes devem calcular o custo whole, incluindo despesas operacionais, e não apenas preços de inferência, para determinar qual abordagem oferece melhor economia para sua situação específica.












