Quando um LLM corporativo recupera um nome de produto, especificação técnica ou cláusula contratual padrão, ele está usando computação de GPU cara, projetada para raciocínio complexo – apenas para acessar informações estáticas. Isso acontece milhões de vezes por dia. Cada pesquisa desperdiça ciclos e aumenta os custos de infraestrutura.
DeepSeek pesquisa recém-lançada sobre “memória condicional” aborda essa limitação arquitetônica diretamente. O trabalho apresenta o Engram, um módulo que separa a recuperação de padrões estáticos do raciocínio dinâmico. Ele fornece resultados que desafiam suposições sobre an actual função da memória nas redes neurais. O artigo foi co-autorado por DeepSeek fundador Liang Wenfeng.
Através de experimentos sistemáticos, o DeepSeek encontrou o equilíbrio ultimate entre computação e memória, com 75% da capacidade do modelo esparso alocada para raciocínio dinâmico e 25% para pesquisas estáticas. Este sistema de memória melhorou mais o raciocínio do que a recuperação de conhecimento.
Os benchmarks de raciocínio complexo saltaram de 70% para 74% de precisão, enquanto os testes focados no conhecimento melhoraram de 57% para 61%. Essas melhorias vieram de testes incluindo Massive-Bench Exhausting, ARC-Problem e MMLU.
A pesquisa chega no momento em que as empresas enfrentam uma pressão crescente para implantar sistemas de IA mais capazes, enquanto navegam pelas restrições de memória da GPU e pelos custos de infraestrutura. A abordagem da DeepSeek oferece um caminho potencial ao repensar fundamentalmente como os modelos devem ser estruturados.
Como a memória condicional resolve um problema diferente da memória agente e do RAG
Sistemas de memória agente, às vezes chamados de memória contextual – como Retrospectiva, MemOSou Deputado – concentre-se na memória episódica. Eles armazenam registros de conversas anteriores, preferências do usuário e histórico de interações. Esses sistemas ajudam os agentes a manter o contexto durante as sessões e aprender com a experiência. Mas eles são externos à passagem direta do modelo e não otimizam a forma como o modelo processa internamente padrões linguísticos estáticos.
Para Chris Latimer, fundador e CEO da Vectorize, que desenvolveu o Hindsight, a abordagem de memória condicional usada no Engram resolve um problema diferente da memória de IA agente.
“Isso não resolve o problema de conectar agentes à memória externa, como históricos de conversas e armazenamentos de conhecimento”, disse Latimer ao VentureBeat. “É mais voltado para extrair o desempenho de modelos menores e aproveitar melhor os escassos recursos da GPU.”
A memória condicional aborda um problema elementary: os transformadores não possuem uma primitiva de pesquisa de conhecimento nativo. Ao processar texto, eles devem simular a recuperação de padrões estáticos por meio de computação neural cara em múltiplas camadas. Esses padrões incluem entidades nomeadas, terminologia técnica e frases comuns.
O artigo da DeepSeek ilustra isso com um exemplo concreto. Reconhecer “Diana, Princesa de Gales” requer o consumo de múltiplas camadas de atenção e redes de feed-forward para compor progressivamente os recursos. O modelo usa essencialmente circuitos lógicos dinâmicos e profundos para realizar o que deveria ser uma simples pesquisa em tabela hash. É como usar uma calculadora para lembrar seu número de telefone, em vez de apenas procurá-lo.
“O problema é que o Transformer não possui a capacidade de ‘pesquisa de conhecimento nativo’”, escrevem os pesquisadores. “Muitas tarefas que deveriam ser resolvidas em tempo O(1), como a recuperação, precisam ser ‘simuladas para recuperação’ por meio de uma grande quantidade de computação, o que é muito ineficiente.”
Como funciona a memória condicional
Engram introduz “memória condicional” para trabalhar junto com a computação condicional do MoE.
O mecanismo é simples. O módulo pega sequências de dois a três tokens e usa funções hash para procurá-los em uma enorme tabela de incorporação. A recuperação acontece em tempo constante, independentemente do tamanho da tabela.
Mas os padrões recuperados precisam de filtragem. Uma pesquisa de hash para “Apple” pode colidir com conteúdo não relacionado ou a palavra pode significar a fruta e não a empresa. Engram resolve isso com um mecanismo de bloqueio. A compreensão atual do contexto do modelo (acumulada através de camadas de atenção anteriores) atua como um filtro. Se a memória recuperada contradizer o contexto atual, o portão a suprime. Se couber, o portão deixa passar.
O módulo não é aplicado em todas as camadas. O posicionamento estratégico equilibra os ganhos de desempenho com a latência do sistema.
Este projeto de sistema duplo levanta uma questão crítica: quanta capacidade cada um deve ter? A principal descoberta do DeepSeek: a divisão ultimate é de 75-80% para computação e 20-25% para memória. Os testes revelaram que o MoE puro (100% de computação) se revelou abaixo do ultimate. Muita computação desperdiça profundidade na reconstrução de padrões estáticos; muita memória perde capacidade de raciocínio.
Eficiência da infraestrutura: o desvio de memória da GPU
Talvez a contribuição mais pragmática da Engram seja o seu design consciente da infra-estrutura. Ao contrário do roteamento dinâmico do MoE, que depende de estados ocultos em tempo de execução, os índices de recuperação do Engram dependem apenas de sequências de tokens de entrada. Essa natureza determinística permite uma estratégia de pré-busca e sobreposição.
“O desafio é que a memória da GPU é limitada e cara, então usar modelos maiores fica caro e mais difícil de implantar”, disse Latimer. “A ideia inteligente por trás do Engram é manter o modelo principal na GPU, mas descarregar uma grande parte das informações armazenadas do modelo em uma memória separada na RAM regular, que o modelo pode usar just-in-time.”
Durante a inferência, o sistema pode recuperar incorporações de forma assíncrona da memória da CPU do host by way of PCIe. Isso acontece enquanto a GPU calcula os blocos de transformadores anteriores. O posicionamento estratégico de camadas aproveita a computação das primeiras camadas como um buffer para mascarar a latência de comunicação.
Os pesquisadores demonstraram isso com uma tabela de incorporação de parâmetros 100B totalmente descarregada para hospedar DRAM. Eles alcançaram penalidades de rendimento abaixo de 3%. Essa dissociação entre armazenamento e computação resolve uma restrição empresarial crítica, já que a memória de alta largura de banda da GPU permanece cara e escassa.
O que isso significa para a implantação de IA empresarial
Para empresas que avaliam estratégias de infraestrutura de IA, as descobertas da DeepSeek sugerem vários insights acionáveis:
1. As arquiteturas híbridas superam as abordagens puras. A lei de alocação 75/25 indica que os modelos ideais devem dividir a capacidade esparsa entre computação e memória.
2. Os custos de infraestrutura podem mudar da GPU para a memória. Se as arquitecturas do estilo Engram se revelarem viáveis na produção, os padrões de investimento em infra-estruturas poderão mudar. A capacidade de armazenar mais de 100 bilhões de parâmetros na memória da CPU com sobrecarga mínima sugere que configurações ricas em memória e com computação moderada podem oferecer melhor desempenho por dólar do que o escalonamento puro da GPU.
3. As melhorias de raciocínio excedem os ganhos de conhecimento. A descoberta surpreendente de que o raciocínio beneficia mais do que a recuperação de conhecimento sugere que o valor da memória vai além dos casos de uso óbvios.
Para as empresas que lideram a adoção da IA, a Engram demonstra que a próxima fronteira pode não ser simplesmente modelos maiores. São escolhas arquitetônicas mais inteligentes que respeitam a distinção elementary entre conhecimento estático e raciocínio dinâmico. A pesquisa sugere que os sistemas ideais de IA se assemelharão cada vez mais às arquiteturas híbridas.
As organizações que aguardam para adotar a IA mais tarde no ciclo devem monitorar se os principais fornecedores de modelos incorporam princípios de memória condicional em suas arquiteturas. Se a lei de alocação 75/25 for válida em todas as escalas e domínios, a próxima geração de modelos básicos poderá proporcionar um desempenho de raciocínio substancialmente melhor com custos de infraestrutura mais baixos.












