Início Tecnologia A inferência está se dividindo em duas – a aposta Groq de...

A inferência está se dividindo em duas – a aposta Groq de US$ 20 bilhões da Nvidia explica seu próximo ato

39
0

O acordo de licenciamento estratégico de US$ 20 bilhões da Nvidia com a Groq representa um dos primeiros movimentos claros em uma luta em quatro frentes sobre a futura pilha de IA. 2026 é quando essa luta se torna óbvia para os construtores de empresas.

Para os tomadores de decisão técnicos com quem conversamos todos os dias – as pessoas que constroem os aplicativos de IA e os pipelines de dados que os impulsionam – este acordo é um sinal de que a period da GPU de tamanho único como resposta padrão de inferência de IA está terminando.

Estamos entrando na period do arquitetura de inferência desagregadaonde o próprio silício está sendo dividido em dois tipos diferentes para acomodar um mundo que exige contexto massivo e raciocínio instantâneo.

Por que a inferência está quebrando a arquitetura da GPU em duas

Para entender por que o CEO da Nvidia, Jensen Huang, perdeu um terço de seu relatou pilha de dinheiro de US$ 60 bilhões em um acordo de licenciamento, você tem que olhar para as ameaças existenciais convergindo para o relato de sua empresa 92% de participação de mercado.

A indústria atingiu um ponto crítico no remaining de 2025: pela primeira vez, a inferência – a fase em que os modelos treinados realmente funcionam – superou o treinamento em termos de receita total do data centerde acordo com a Deloitte. Nesta nova “inferência de inferência”, as métricas mudaram. Embora a precisão proceed sendo a base, a batalha agora está sendo travada pela latência e pela capacidade de manter o “estado” em agentes autônomos.

Existem quatro frentes nessa batalha, e cada frente aponta para a mesma conclusão: as cargas de trabalho de inferência estão se fragmentando mais rápido do que as GPUs podem generalizar.

1. Quebrando a GPU em duas: pré-preenchimento vs. decodificação

Gavin Baker, um investidor da Groq (e, portanto, tendencioso, mas também excepcionalmente fluente na arquitetura), resumido o principal motivador do negócio Groq é limpo: “A inferência é desagregar em pré-preenchimento e decodificação”.

Pré-preenchimento e decodificar são duas fases distintas:

  • A fase de pré-preenchimento: Pense nisso como o estágio de “aviso” do usuário. O modelo deve ingerir grandes quantidades de dados — seja uma base de código de 100.000 linhas ou uma hora de vídeo — e calcular uma compreensão contextual. Isso é “limitado à computação”, exigindo uma multiplicação massiva de matrizes, na qual as GPUs da Nvidia são historicamente excelentes.

  • A fase de geração (decodificação): Esta é a verdadeira “geração” token por token. Depois que o immediate é ingerido, o modelo gera uma palavra (ou token) por vez, alimentando cada uma delas de volta ao sistema para prever a próxima. Isso é “limitado à largura de banda da memória”. Se os dados não conseguirem passar da memória para o processador com rapidez suficiente, o modelo falha, não importa quão poderosa seja a GPU. (É aqui que a Nvidia period fraca e onde brilha a unidade de processamento de linguagem especial (LPU) da Groq e sua memória SRAM relacionada. Mais sobre isso em breve.)

A Nvidia tem anunciou um próximo Vera Rubin família de chips que está sendo arquitetado especificamente para lidar com essa divisão. O Rubin CPX O componente desta família é o burro de carga designado “pré-preenchimento”, otimizado para enormes janelas de contexto de 1 milhão de tokens ou mais. Para lidar com esta escala de forma acessível, ele se afasta das despesas exorbitantes de memória de alta largura de banda (HBM) – A atual memória padrão ouro da Nvidia que fica ao lado da matriz da GPU – e, em vez disso, utiliza 128 GB de um novo tipo de memória, GDDR7. Embora a HBM forneça velocidade extrema (embora não tão rápida quanto a memória estática de acesso aleatório (SRAM) da Groq), seu fornecimento em GPUs é limitado e seu custo é uma barreira à escala; O GDDR7 oferece uma maneira mais econômica de ingerir conjuntos de dados massivos.

Enquanto isso, o silício “com sabor Groq”, que a Nvidia está integrando em seu roteiro de inferência, servirá como mecanismo de “decodificação” de alta velocidade. Trata-se de neutralizar uma ameaça de arquiteturas alternativas como as TPUs do Google e manter o domínio de CUDA, O ecossistema de software program da Nvidia que serviu como principal fosso por mais de uma década.

Tudo isso foi suficiente para Baker, o investidor da Groq, prever que a decisão da Nvidia de licenciar a Groq fará com que todos os outros chips especializados de IA sejam cancelados – isto é, fora da TPU do Google, do AI5 da Tesla e do Trainium da AWS.

2. O poder diferenciado da SRAM

No coração da tecnologia da Groq está SRAM. Ao contrário da DRAM encontrada no seu PC ou do HBM em uma GPU Nvidia H100, a SRAM é gravada diretamente na lógica do processador.

Michael Stewart, sócio-gerente do fundo de risco da Microsoft, M12, descreve a SRAM como a melhor para mover dados em distâncias curtas com o mínimo de energia. “A energia para se mover um pouco na SRAM é de 0,1 picojoules ou menos”, disse Stewart. “Movimentá-lo entre a DRAM e o processador é cerca de 20 a 100 vezes pior.”

No mundo de 2026, onde os agentes devem raciocinar em tempo actual, o SRAM atua como o “bloco de rascunho” definitivo: um espaço de trabalho de alta velocidade onde o modelo pode manipular operações simbólicas e processos de raciocínio complexos sem os “ciclos desperdiçados” de transporte de memória externa.

No entanto, a SRAM tem uma grande desvantagem: é fisicamente volumosa e cara de fabricar, o que significa que a sua capacidade é limitada em comparação com a DRAM. É aqui que Val Bercovici, diretor de IA da Weka, outra empresa que oferece memória para GPUs, vê a segmentação do mercado.

Cargas de trabalho de IA compatíveis com Groq – onde a SRAM tem vantagem – são aquelas que usam modelos pequenos de 8 bilhões de parâmetros ou menos, disse Bercovici. Este não é um mercado pequeno, no entanto. “É apenas um segmento de mercado gigante que não foi atendido pela Nvidia, que period inferência de borda, baixa latência, robótica, voz, dispositivos IoT – coisas que queremos rodando em nossos telefones sem a nuvem por conveniência, desempenho ou privacidade”, disse ele.

Este “ponto ideally suited” 8B é significativo porque 2025 viu uma explosão em destilação modeloonde muitas empresas estão reduzindo modelos massivos em versões menores altamente eficientes. Embora a SRAM não seja prática para os modelos “fronteira” de trilhões de parâmetros, ela é perfeita para esses modelos menores e de alta velocidade.

3. A ameaça antrópica: a ascensão da ‘pilha portátil’

Talvez o motivador mais subestimado deste acordo seja o sucesso da Anthropic em tornar sua pilha portátil entre aceleradores.

A empresa tem foi pioneiro em uma abordagem de engenharia portátil para treinamento e inferência – basicamente uma camada de software program que permite que seus modelos Claude sejam executados em várias famílias de aceleradores de IA – incluindo GPUs da Nvidia e TPUs Ironwood do Google. Até recentemente, o domínio da Nvidia estava protegido porque executar modelos de alto desempenho fora da pilha da Nvidia period um pesadelo técnico. “É antrópico”, disse-me Bercovici de Weka. “O fato de a Anthropic ter sido capaz de… construir uma pilha de software program que pudesse funcionar tanto em TPUs quanto em GPUs, não acho que isso esteja sendo apreciado o suficiente no mercado.”

(Divulgação: Weka é patrocinadora de eventos VentureBeat.)

A Anthropic recentemente se comprometeu a acessar até 1 milhão de TPUs do Google, representando mais de um gigawatt de capacidade computacional. Essa abordagem multiplataforma garante que a empresa não fique refém dos preços ou das restrições de fornecimento da Nvidia. Portanto, para a Nvidia, o acordo com a Groq é igualmente uma medida defensiva. Ao integrar o IP de inferência ultrarrápido da Groq, a Nvidia está garantindo que as cargas de trabalho mais sensíveis ao desempenho – como aquelas que executam modelos pequenos ou como parte de agentes em tempo actual – possam ser acomodadas no ecossistema CUDA da Nvidia, mesmo enquanto os concorrentes tentam abandonar o navio para as TPUs Ironwood do Google. CUDA é o software program especial que a Nvidia fornece aos desenvolvedores para integrar GPUs.

4. A guerra agente do “Estado”: ​​Manus e o KV Cache

O momento deste acordo com a Groq coincide com a aquisição do agente pioneiro pela Meta Manus apenas dois dias atrás. A importância de Manus foi em parte a sua obsessão com estado.

Se um agente não consegue lembrar o que fez há 10 passos, isso será inútil para tarefas do mundo actual, como pesquisa de mercado ou desenvolvimento de software program. Cache KV (cache de valor-chave) é a “memória de curto prazo” que um LLM constrói durante a fase de pré-preenchimento.

Manus relatado que para agentes de nível de produção, a proporção de tokens de entrada para tokens de saída pode chegar a 100:1. Isso significa que para cada palavra que um agente diz, ele está “pensando” e “lembrando” de outras 100. Nesse ambiente, a taxa de acertos do KV Cache é a métrica mais importante para um agente de produção, disse Manus. Se esse cache for “despejado” da memória, o agente perde sua linha de pensamento e o modelo deve queimar muita energia para recomputar o immediate.

A SRAM de Groq pode ser um “bloco de rascunho” para esses agentes – embora, novamente, principalmente para modelos menores – porque permite a recuperação quase instantânea desse estado. Combinado com da Nvidia Dínamo estrutura e o KVBM, a Nvidia está construindo um “sistema operacional de inferência” que pode classificar esse estado em SRAM, DRAM e outras ofertas baseadas em flash, como a do Weka de Bercovici.

Thomas Jorgensen, diretor sênior de Capacitação Tecnológica da Supermicro, especializada na construção de clusters de GPUs para grandes empresas, me disse em setembro que a computação não é mais o principal gargalo para clusters avançados. Alimentar dados para GPUs period o gargalo, e quebrar esse gargalo requer memória.

“Todo o cluster agora é o computador”, disse Jorgensen. “A rede se torna uma parte interna da besta… alimentar a besta com dados está se tornando mais difícil porque a largura de banda entre as GPUs está crescendo mais rápido do que qualquer outra coisa.”

É por isso que a Nvidia está adotando a inferência desagregada. Ao separar as cargas de trabalho, os aplicativos corporativos podem usar camadas de armazenamento especializadas para alimentar dados com desempenho de classe de memória, enquanto o silício especializado “Groq-inside” lida com a geração de tokens de alta velocidade.

O veredicto para 2026

Estamos entrando em uma period de extrema especialização. Durante décadas, os operadores históricos puderam vencer enviando uma arquitetura dominante de uso geral – e seu ponto cego period muitas vezes o que eles ignoravam nas bordas. A longa negligência da Intel em relação ao baixo consumo de energia é o exemplo clássico, disse-me Michael Stewart, sócio-gerente do fundo de risco M12 da Microsoft. A Nvidia está sinalizando que não repetirá esse erro. “Se até o líder, até mesmo o leão da selva adquirir talento, adquirir tecnologia – é um sinal de que todo o mercado está apenas querendo mais opções”, disse Stewart.

Para os líderes técnicos, a mensagem é pare de arquitetar sua pilha como se fosse um rack, um acelerador, uma resposta. Em 2026, a vantagem irá para as equipes que rotularem explicitamente as cargas de trabalho – e as encaminharem para o nível certo:

  • pesado de pré-preenchimento vs. pesado de decodificação

  • contexto longo vs. contexto curto

  • interativo vs. lote

  • modelo pequeno vs. modelo grande

  • restrições de borda versus suposições do information heart

Sua arquitetura seguirá esses rótulos. Em 2026, a “estratégia de GPU” deixa de ser uma decisão de compra e passa a ser uma decisão de roteamento. Os vencedores não perguntarão qual chip compraram – eles perguntarão onde cada token foi executado e por quê.

avots