Início Tecnologia Rompendo a parede de memória da IA ​​com armazenamento de tokens

Rompendo a parede de memória da IA ​​com armazenamento de tokens

28
0

À medida que a IA de agência passa de experimentos para cargas de trabalho reais de produção, um problema de infraestrutura silencioso, mas sério, entra em foco: a memória. Não computar. Não modelos. Memória.

Nos bastidores, as GPUs de hoje simplesmente não têm espaço suficiente para armazenar os caches de valor-chave (KV) dos quais os agentes de IA modernos e de longa duração dependem para manter o contexto. O resultado é um grande desperdício invisível: GPUs refazendo trabalhos que já haviam feito, custos de nuvem subindo e desempenho sendo prejudicado. É um problema que já está aparecendo em ambientes de produção, mesmo que a maioria das pessoas ainda não o tenha identificado.

Em uma parada recente na série VentureBeat AI Impression, o CTO da WEKA, Shimon Ben-David, juntou-se ao CEO da VentureBeat, Matt Marshall, para desvendar o “muro de memória” emergente do setor e por que ele está se tornando um dos maiores bloqueadores para o dimensionamento de IA agente verdadeiramente estatal – sistemas que podem lembrar e construir no contexto ao longo do tempo. A conversa não apenas diagnosticou o problema; ele apresentou uma nova maneira de pensar inteiramente sobre a memória, por meio de uma abordagem que a WEKA chama de armazenamento de tokens.

O problema de memória da GPU

“Quando analisamos a infraestrutura de inferência, não se trata de um desafio aos ciclos da GPU. É principalmente um problema de memória da GPU”, disse Ben-David.

A raiz do problema está em como funcionam os modelos de transformadores. Para gerar respostas, eles contam com caches KV que armazenam informações contextuais para cada token em uma conversa. Quanto maior a janela de contexto, mais memória esses caches consomem e isso aumenta rapidamente. Uma única sequência de 100.000 tokens pode exigir cerca de 40 GB de memória GPU, observou Ben-David.

Isso não seria um problema se as GPUs tivessem memória ilimitada. Mas eles não o fazem. Mesmo as GPUs mais avançadas chegam a cerca de 288 GB de memória de alta largura de banda (HBM), e esse espaço também precisa acomodar o próprio modelo.

Em ambientes de inferência multilocatários do mundo actual, isso se torna doloroso rapidamente. Cargas de trabalho como desenvolvimento de código ou processamento de declarações fiscais dependem fortemente do KV-cache para contexto.

“Se eu estiver carregando três ou quatro PDFs de 100.000 tokens em um modelo, é isso – esgotei a capacidade do cache KV na HBM”, disse Ben-David. Isso é conhecido como muro da memória. “De repente, o que o ambiente de inferência é forçado a fazer é descartar dados”, acrescentou.

Isso significa que as GPUs estão constantemente jogando fora o contexto de que precisarão novamente em breve, evitando que os agentes tenham estado e mantenham as conversas e o contexto ao longo do tempo.

O imposto de inferência oculto

“Vemos constantemente GPUs em ambientes de inferência recalculando coisas que já fizeram”, disse Ben-David. Os sistemas preenchem previamente o cache KV, iniciam a decodificação, ficam sem espaço e despejam os dados anteriores. Quando esse contexto é necessário novamente, todo o processo se repete – preencher previamente, decodificar, preencher novamente. Em escala, isso representa uma enorme quantidade de trabalho desperdiçado. Isso também significa desperdício de energia, maior latência e degradação da experiência do usuário – tudo isso enquanto as margens são reduzidas.

Esse desperdício de recálculo da GPU aparece diretamente no balanço patrimonial. As organizações podem sofrer quase 40% de sobrecarga apenas com ciclos de pré-preenchimento redundantes. Isso está criando efeitos em cascata no mercado de inferência.

“Se você observar os preços de grandes provedores de modelos como Anthropic e OpenAI, eles estão na verdade ensinando os usuários a estruturar seus prompts de forma a aumentar a probabilidade de atingir a mesma GPU que tem seu cache KV armazenado”, disse Ben-David. “Se você atingir essa GPU, o sistema pode pular a fase de pré-preenchimento e começar a decodificar imediatamente, o que permite gerar mais tokens com eficiência.”

Mas isso ainda não resolve o problema subjacente de infraestrutura de capacidade de memória da GPU extremamente limitada.

Resolvendo IA com estado

“Como ultrapassar esse muro de memória? Como ultrapassá-lo? Essa é a chave para uma inferência moderna e económica”, disse Ben-David. “Vemos várias empresas tentando resolver isso de maneiras diferentes.”

Algumas organizações estão implantando novos modelos lineares que tentam criar caches KV menores. Outros estão focados em lidar com a eficiência do cache.

“Para serem mais eficientes, as empresas estão usando ambientes que calculam o cache KV em uma GPU e depois tentam copiá-lo da memória da GPU ou usam um ambiente native para isso”, explicou Ben-David. “Mas como fazer isso em escala e de maneira econômica, sem sobrecarregar sua memória e sem sobrecarregar sua rede? Isso é algo em que a WEKA está ajudando nossos clientes.”

Simplesmente adicionar mais GPUs ao problema não resolve a barreira da memória da IA. “Existem alguns problemas para os quais não é possível investir dinheiro suficiente para resolver”, disse Ben-David.

Memória aumentada e armazenamento de tokens, explicado

A resposta da WEKA é o que ela chama de memória aumentada e armazenamento de tokens – uma maneira de repensar onde e como os dados do cache KV residem. Em vez de forçar tudo a caber na memória da GPU, a Grade de Memória Aumentada da WEKA estende o cache KV em um “armazém” rápido e compartilhado dentro de sua arquitetura NeuralMesh.

Na prática, isso transforma a memória de uma restrição rígida em um recurso escalável — sem adicionar latência de inferência. WEKA afirma que os clientes veem as taxas de acerto do cache KV saltarem para 96-99% para cargas de trabalho de agente, junto com ganhos de eficiência de até 4,2x mais tokens produzidos por GPU.

Ben-David disse de forma simples: “Think about que você tem 100 GPUs produzindo uma certa quantidade de tokens. Agora think about que essas cem GPUs estão funcionando como se fossem 420 GPUs”.

Para grandes fornecedores de inferência, o resultado não é apenas um melhor desempenho – traduz-se diretamente num impacto económico actual.

“Apenas adicionando essa camada de cache KV acelerada, estamos analisando alguns casos de uso em que a economia seria de milhões de dólares por dia”, disse Ben-David

Este multiplicador de eficiência também abre novas opções estratégicas para as empresas. As equipes de plataforma podem projetar agentes com estado sem se preocupar em estourar os orçamentos de memória. Os provedores de serviços podem oferecer níveis de preços baseados em contexto persistente, com inferência em cache fornecida a um custo drasticamente menor.

O que vem a seguir

A NVIDIA projeta um aumento de 100 vezes na demanda de inferência à medida que a IA de agente se torna a carga de trabalho dominante. Essa pressão já está passando dos hiperescaladores para as implantações corporativas diárias – isso não é mais apenas um problema de “grande tecnologia”.

À medida que as empresas passam de provas de conceito para sistemas de produção reais, a persistência da memória está se tornando uma preocupação central da infraestrutura. As organizações que tratam isso como uma prioridade arquitetônica, em vez de uma reflexão tardia, obterão uma clara vantagem tanto em custo quanto em desempenho.

O muro da memória não é algo que as organizações possam simplesmente gastar mais para superar. À medida que a IA agente cresce, é um dos primeiros limites da infraestrutura de IA que obriga a repensar mais profundamente e, como os insights de Ben-David deixaram claro, a memória também pode ser onde começa a próxima onda de diferenciação competitiva.

avots