O RAG nem sempre é rápido ou inteligente o suficiente para fluxos de trabalho de IA modernos. À medida que as equipes passam de chatbots de curta duração para agentes de longa duração e com muitas ferramentas incorporadas em sistemas de produção, essas limitações estão se tornando mais difíceis de contornar.
Em resposta, as equipes estão experimentando arquiteturas de memória alternativas — às vezes chamadas de memória contextual ou memória agente — que priorizam a persistência e a estabilidade em vez da recuperação dinâmica.
Uma das implementações mais recentes desta abordagem é a “memória observacional”, uma tecnologia de código aberto desenvolvida pela Mastra, que foi fundada pelos engenheiros que anteriormente construíram e venderam o Estrutura Gatsby para Netlify.
Ao contrário dos sistemas RAG que recuperam o contexto dinamicamente, a memória observacional usa dois agentes de segundo plano (Observador e Refletor) para compactar o histórico da conversa em um registro de observação datado. As observações compactadas permanecem no contexto, eliminando totalmente a recuperação. Para conteúdo de texto, o sistema atinge compactação de 3 a 6x. Para cargas de trabalho de agentes com muitas ferramentas que geram grandes resultados, as taxas de compactação atingem de 5 a 40 vezes.
A desvantagem é que a memória observacional prioriza o que o agente já viu e decidiu em vez de pesquisar um corpus externo mais amplo, tornando-a menos adequada para descoberta de conhecimento aberto ou casos de uso de recordação com muita conformidade.
O sistema obteve pontuação de 94,87% no LongMemEval usando GPT-5-mini, mantendo uma janela de contexto completamente estável e armazenável em cache. No modelo GPT-4o padrão, a memória observacional obteve 84,23% em comparação com a implementação RAG do próprio Mastra com 80,05%.
“Ele tem a grande característica de ser mais simples e mais poderoso, pois tem melhor pontuação nos benchmarks”, disse Sam Bhagwat, cofundador e CEO da Mastra, ao VentureBeat.
Como funciona: dois agentes comprimem a história em observações
A arquitetura é mais simples que os sistemas de memória tradicionais, mas oferece melhores resultados.
A memória observacional divide a janela de contexto em dois blocos. O primeiro contém observações – notas compactadas e datadas extraídas de conversas anteriores. O segundo contém o histórico bruto de mensagens da sessão atual.
Dois agentes em segundo plano gerenciam o processo de compactação. Quando as mensagens não observadas atingem 30.000 tokens (configuráveis), o agente Observer as compacta em novas observações e as anexa ao primeiro bloco. As mensagens originais são descartadas. Quando as observações atingem 40.000 tokens (também configuráveis), o agente Reflector reestrutura e condensa o registro de observações, combinando itens relacionados e removendo informações substituídas.
“A maneira como você comprime essas mensagens ao longo do tempo é, na verdade, apenas recebendo mensagens, e então um agente diz: ‘OK, então quais são as principais coisas a serem lembradas desse conjunto de mensagens?'”, Disse Bhagwat. “Você meio que comprime e então obtém outros 30.000 tokens e comprime isso.”
O formato é baseado em texto e não em objetos estruturados. Não são necessários bancos de dados vetoriais ou gráficos.
Janelas de contexto estáveis reduzem custos de token em até 10x
A economia da memória observacional vem do cache imediato. Anthropic, OpenAI e outros provedores reduzem os custos de token em 4 a ten vezes para prompts armazenados em cache em comparação com aqueles que não são armazenados em cache. A maioria dos sistemas de memória não pode tirar vantagem disso porque altera o immediate a cada passo, injetando contexto recuperado dinamicamente, o que invalida o cache. Para as equipes de produção, essa instabilidade se traduz diretamente em curvas de custos imprevisíveis e em cargas de trabalho de agentes mais difíceis de orçamentar.
A memória observacional mantém o contexto estável. O bloco de observação é apenas anexado até que a reflexão seja executada, o que significa que o immediate do sistema e as observações existentes formam um prefixo consistente que pode ser armazenado em cache em vários turnos. As mensagens continuam sendo anexadas ao bloco de histórico bruto até que o limite de 30.000 tokens seja atingido. Cada turno antes disso é um acerto de cache completo.
Quando a observação é executada, as mensagens são substituídas por novas observações anexadas ao bloco de observação existente. O prefixo de observação permanece consistente, portanto o sistema ainda recebe uma ocorrência parcial no cache. Somente durante a reflexão (que é executada com pouca frequência) todo o cache é invalidado.
O tamanho médio da janela de contexto para a execução do benchmark LongMemEval da Mastra foi de cerca de 30.000 tokens, muito menor do que o histórico completo da conversa exigiria.
Por que isso difere da compactação tradicional
A maioria dos agentes de codificação usa compactação para gerenciar contextos longos. A compactação permite que a janela de contexto seja totalmente preenchida e, em seguida, compacta todo o histórico em um resumo quando estiver prestes a transbordar. O agente continua, a janela é preenchida novamente e o processo se repete.
A compactação produz resumos em estilo de documentação. Captura a essência do que aconteceu, mas perde eventos, decisões e detalhes específicos. A compactação acontece em lotes grandes, o que torna cada passagem computacionalmente cara. Isso funciona para a legibilidade humana, mas muitas vezes elimina as decisões específicas e as interações de ferramentas de que os agentes precisam para agir de forma consistente ao longo do tempo.
O Observer, por outro lado, é executado com mais frequência, processando pedaços menores. Em vez de resumir a conversa, produz um registo de decisões baseado em eventos – uma lista estruturada de observações datadas e priorizadas sobre o que aconteceu especificamente. Cada ciclo de observação lida com menos contexto e o compacta com mais eficiência.
O log nunca é resumido em um blob. Mesmo durante a reflexão, o Refletor reorganiza e condensa as observações para encontrar conexões e descartar dados redundantes. Mas a estrutura baseada em eventos persiste. O resultado parece um registro de decisões e ações, não de documentação.
Casos de uso corporativo: Conversas de agente de longa duração
Os clientes da Mastra abrangem diversas categorias. Alguns criam chatbots no aplicativo para plataformas CMS como Sanity ou Contentful. Outros criam sistemas AI SRE que ajudam as equipes de engenharia a fazer a triagem de alertas. Os agentes de processamento de documentos lidam com a papelada de empresas tradicionais que estão migrando para a automação.
O que esses casos de uso compartilham é a necessidade de conversas de longa duração que mantenham o contexto durante semanas ou meses. Um agente incorporado em um sistema de gerenciamento de conteúdo precisa lembrar que há três semanas o usuário solicitou um formato de relatório específico. Um agente SRE precisa rastrear quais alertas foram investigados e quais decisões foram tomadas.
“Um dos grandes objetivos para 2025 e 2026 é construir um agente dentro de seu aplicativo net”, disse Bhagwat sobre as empresas de SaaS B2B. “Esse agente precisa ser capaz de lembrar que, há três semanas, você me perguntou sobre isso ou disse que queria um relatório sobre esse tipo de conteúdo ou visualizações segmentadas por essa métrica.”
Nesses cenários, a memória deixa de ser uma otimização e se torna um requisito do produto – os usuários percebem imediatamente quando os agentes esquecem decisões ou preferências anteriores.
A memória observacional mantém meses de histórico de conversas presentes e acessíveis. O agente pode responder lembrando-se de todo o contexto, sem exigir que o usuário explique novamente preferências ou decisões anteriores.
O sistema foi enviado como parte do Mastra 1.0 e já está disponível. A equipe lançou plug-ins esta semana para LangChain, AI SDK da Vercel e outras estruturas, permitindo que os desenvolvedores usem memória observacional fora do ecossistema Mastra.
O que isso significa para sistemas de IA de produção
A memória observacional oferece uma abordagem arquitetural diferente do banco de dados vetorial e dos pipelines RAG que dominam as implementações atuais. A arquitetura mais simples (baseada em texto, sem bancos de dados especializados) facilita a depuração e a manutenção. A janela de contexto estável permite um cache agressivo que reduz custos. O desempenho do benchmark sugere que a abordagem pode funcionar em grande escala.
Para equipes empresariais que avaliam abordagens de memória, as principais questões são:
-
Quanto contexto seus agentes precisam manter durante as sessões?
-
Qual é a sua tolerância para compactação com perdas versus pesquisa de corpus completo?
-
Você precisa da recuperação dinâmica fornecida pelo RAG ou o contexto estável funcionaria melhor?
-
Seus agentes usam muitas ferramentas e geram grandes quantidades de resultados que precisam de compactação?
As respostas determinam se a memória observacional se adapta ao seu caso de uso. Bhagwat posiciona a memória como um dos principais primitivos necessários para agentes de alto desempenho, juntamente com o uso de ferramentas, orquestração de fluxo de trabalho, observabilidade e proteções. Para agentes empresariais incorporados em produtos, esquecer o contexto entre as sessões é inaceitável. Os usuários esperam que os agentes se lembrem de suas preferências, decisões anteriores e trabalho em andamento.
“A coisa mais difícil para os agentes de formação de equipes é a produção, que pode levar tempo”, disse Bhagwat. “A memória é uma parte muito importante nisso, porque é chocante se você usar qualquer tipo de ferramenta de agente e você meio que disse algo e então ele simplesmente esqueceu.”
À medida que os agentes passam de experimentos para sistemas incorporados de registro, a forma como as equipes projetam a memória pode ser tão importante quanto o modelo que eles escolhem.












