Início Tecnologia O novo método de ‘treinamento em tempo de teste’ permite que a...

O novo método de ‘treinamento em tempo de teste’ permite que a IA proceed aprendendo sem explodir os custos de inferência

23
0

Um novo estudo realizado por pesquisadores da Universidade de Stanford e da Nvidia propõe uma maneira de os modelos de IA continuarem aprendendo após a implantação – sem aumentar os custos de inferência. Para agentes corporativos que precisam digerir documentos, tickets e logs longos, esta é uma tentativa de obter “memória longa” sem prestar atenção aos custos que aumentam com a extensão do contexto.

A abordagem, chamada “Treinamento de ponta a ponta para teste”(TTT-E2E), reformula a modelagem de linguagem como um problema de aprendizagem contínua: em vez de memorizar fatos durante o pré-treinamento, os modelos aprendem como se adaptar em tempo actual à medida que processam novas informações.

O resultado é um Transformer que pode corresponder à precisão de longo contexto de modelos de atenção whole enquanto funciona com eficiência próxima da RNN – um avanço potencial para cargas de trabalho empresariais onde a duração do contexto está colidindo com o custo.

A compensação entre precisão e eficiência

Para os desenvolvedores que criam sistemas de IA para tarefas de documentos longos, a escolha da arquitetura do modelo geralmente envolve uma dolorosa compensação entre precisão e eficiência.

De um lado estão os Transformers com whole autoatenção, atualmente o padrão ouro de precisão. Eles são projetados para verificar as chaves e valores de todos os tokens anteriores em busca de cada novo token gerado, proporcionando-lhes uma recuperação sem perdas. No entanto, essa precisão tem um custo elevado: o custo computacional por token aumenta significativamente com o comprimento do contexto.

Do outro lado estão os modelos de sequência de tempo linear, que mantêm os custos de inferência constantes, mas lutam para reter informações em contextos muito longos.

Outras abordagens tentam dividir a diferença – atenção em janela deslizante, híbridos que misturam atenção com recorrência e outros truques de eficiência – mas ainda tendem a ficar aquém da atenção whole na modelagem de linguagem difícil.

A aposta dos pesquisadores é que o ingrediente que falta é a compressão: em vez de tentar lembrar exatamente cada token, os modelos devem destilar o que importa em um estado compacto.

Treinamento em tempo de teste

A principal inovação do artigo é a aplicação do Take a look at-Time Coaching (TTT) à modelagem de linguagem. Isso transforma o modelo de um banco de dados estático em um aluno flexível.

Na implantação padrão de IA, os modelos são treinados para minimizar perdas e depois implantados como artefatos congelados. Se você tentar fazer com que um modelo estático aprenda durante a implantação, ele normalmente terá um desempenho ruim porque nunca foi treinado para se atualizar com eficiência.

Os pesquisadores resolvem isso mudando do pré-treinamento padrão (ensinando os fatos do modelo) para o meta-aprendizado (ensinando o modelo como aprender). O objetivo é otimizar a “inicialização” do modelo para que ele possa absorver novas informações rapidamente quando entrar em operação.

O treinamento em tempo de teste usa dois loops para otimizar modelos para “meta-aprendizado” (crédito: VentureBeat com NotebookLM)

O processo envolve a simulação do aprendizado em tempo de inferência durante a fase de treinamento:

  • Loop interno (aprender): Durante o treinamento, o modelo trata o texto como um fluxo e realiza pequenas atualizações temporárias à medida que prevê o próximo token – simulando como ele se adaptaria na inferência.

  • Loop externo (ensine a aprender): o sistema atualiza a inicialização do modelo para que a próxima rodada de adaptação de streaming se torne mais rápida e precisa.

Embora a ideia de um modelo mudar seus pesos durante a implantação possa parecer arriscada para líderes empresariais focados em confiabilidade, o coautor Yu Solar argumenta que é matematicamente mais seguro do que parece.

“Você deveria pensar no modelo como um RNN com um enorme estado oculto”, diz Solar. Ele observa que se uma empresa se sentir segura ao implantar Transformers ou RNNs padrão, o perfil de estabilidade do TTT é comparável.

Arquitetura de memória dupla

Para implementar o TTT-E2E, os pesquisadores modificaram a arquitetura padrão do Transformer para suportar esse novo paradigma de aprendizagem, criando uma hierarquia que separa o tratamento barato de contexto de curto prazo das atualizações seletivas de memória de longo prazo.

  1. TO modelo usa atenção de janela deslizante em vez de atenção whole. Isso atua como a “memória de trabalho” do modelo, olhando apenas para uma janela fixa de tokens recentes para lidar com sintaxe imediata e referências locais. Isto garante que o custo de processamento de um novo token permaneça constante, em vez de crescer à medida que o contexto se expande.

  2. O modelo emprega “atualizações de peso direcionadas”. Embora os modelos padrão tenham pesos completamente congelados durante o uso, o TTT-E2E designa seções específicas (camadas Perceptron multicamadas nos 25% finais dos blocos do modelo) como mutáveis.

  3. A arquitetura usa um “armazenamento de trilha dupla” para evitar que o modelo se esqueça seu treinamento geral enquanto aprende um novo documento. Cada bloco atualizável contém dois componentes MLP: uma camada estática que contém conhecimento geral pré-treinado e uma camada dinâmica que é atualizada em tempo actual para armazenar o contexto do documento atual.

Arquitetura TTT-E2E

Arquitetura TTT-E2E (fonte: arXiv)

A inovação está na forma como o modelo lida com as informações que caem da janela deslizante. Em um modelo de janela deslizante padrão, quando um token desaparece da vista, ele é esquecido. O TTT-E2E evita isso por meio de compactação. À medida que a janela se transfer, o modelo usa a previsão do próximo token para “comprimir” as informações que passam diretamente nos pesos das camadas dinâmicas do MLP. Isto consolida a essência e os fatos das partes anteriores do documento na estrutura do modelo, servindo como uma memória de longo prazo.

TTT-E2E em ação

O resultado principal: TTT-E2E continua melhorando à medida que o comprimento do contexto aumenta – igualando ou superando a atenção whole – enquanto as linhas de base eficientes se estabilizam após aproximadamente 32.000 tokens.

Para validar a sua abordagem, os investigadores treinaram modelos que variam entre 125 milhões e 3 mil milhões de parâmetros. Eles empregaram um processo de treinamento em dois estágios: pré-treinamento em contextos de 8.000 tokens e ajuste fino em contextos de 128.000 tokens. Esses modelos foram testados em linhas de base robustas, incluindo transformadores com atenção whole, transformadores com atenção de janela deslizante (SWA), modelos híbridos (Mamba 2 e Gated DeltaNet) e TTT-KVB (uma forma anterior de treinamento em tempo de teste).

Os resultados destacam um avanço significativo no dimensionamento. O experimento mais crítico testou o desempenho à medida que o documento de entrada cresceu de 8.000 para 128.000 tokens. O Full Consideration Transformer, padrão ouro, continuou a melhorar seu desempenho (menor perda) à medida que o contexto crescia. Em contraste, linhas de base eficientes como Mamba 2, Gated DeltaNet e SWA atingiram um limite, com seu desempenho degradando ou estabilizando após 32.000 tokens.

O novo método TTT-E2E foi dimensionado com sucesso com comprimento de contexto, imitando o comportamento de Atenção Whole. Nos experimentos usando modelos de parâmetros 3B, o TTT-E2E realmente manteve uma perplexidade menor (melhor desempenho) do que Atenção Whole em toda a janela de contexto.

Desempenho TTT-E2E

O TTT-E2E quase corresponde à precisão dos transformadores de atenção whole, ao mesmo tempo que corresponde à eficiência dos modelos baseados em RNN (arXiv)

É basic que esse desempenho não tenha sido feito às custas da velocidade. Na latência de inferência, o TTT-E2E correspondeu à eficiência dos RNNs. Com um comprimento de contexto de 128 mil tokens, o TTT-E2E foi 2,7x mais rápido que o Full-Consideration Transformer no {hardware} Nvidia H100.

Crucialmente para adoção, a Solar observa que os modelos TTT podem ser implantados para inferência hoje na infraestrutura padrão do Transformer para atingir essas acelerações. No entanto, ele adverte que o lado do treinamento da equação (especificamente o loop externo) é atualmente mais complexo e mais lento do que os métodos padrão, representando um obstáculo que ainda precisa de otimização de engenharia.

Os benefícios tornam-se ainda mais drásticos à medida que os dados aumentam. Solar argumenta que a vantagem deveria aumentar ainda mais em contextos de milhões de tokens, embora esses números sejam projeções, e não as implantações de referência atuais.

No entanto, a abordagem tem limitações específicas enraizadas na sua filosofia de design. Os pesquisadores realizaram um teste “Agulha no Palheiro”, que exige que o modelo recupere uma informação específica e isolada (como uma senha) escondida em um grande bloco de texto. Nesta avaliação, o Full Consideration superou dramaticamente todos os outros métodos, incluindo o TTT-E2E.

Isso ocorre porque o Full Consideration depende de um cache que permite uma recuperação quase sem perdas de detalhes específicos, enquanto o TTT-E2E depende da compactação. A compressão captura perfeitamente a intuição e as informações essenciais, mas pode perder detalhes específicos e aleatórios que não se enquadram nos padrões aprendidos.

Esta distinção tem implicações importantes para pipelines de dados empresariais, especificamente RAG. Solar sugere que o TTT não tornará o RAG obsoleto, mas o redefinirá. Ele compara o TTT a “atualizar o cérebro humano” com conhecimento geral, enquanto o RAG continuará sendo uma ferramenta necessária para a precisão, “semelhante à forma como os humanos ainda precisam anotar coisas em um bloco de notas”. Para as equipes empresariais, a conclusão é que o TTT reduz a frequência com que você precisa de recuperação, mas não elimina a necessidade de memória externa exata.

Embora a técnica tenha sido demonstrada na arquitetura Transformer, os pesquisadores observam que “em princípio, o TTT pode ser aplicado a qualquer arquitetura básica” que permita a separação dos componentes de memória de longo e curto prazo.

“Acreditamos que estas duas lessons de memória continuarão a complementar-se”, concluíram os investigadores.

Olhando para o futuro, a Solar prevê uma mudança de paradigma em que a forma primária de memória de IA será altamente comprimida em vez de exata. Embora os modelos mantenham uma janela de recuperação perfeita “razoável” de cerca de 128.000 tokens, ele acredita que as arquiteturas TTT acabarão por desbloquear uma “memória compactada de bilhões de tokens”, fundamentalmente mudando a forma como os agentes corporativos equilibram recall, custo e duração do contexto.

avots