Início Tecnologia Esta nova e simples técnica de immediate aumenta a precisão em LLMs...

Esta nova e simples técnica de immediate aumenta a precisão em LLMs em até 76% em tarefas sem raciocínio

21
0

No mundo caótico da otimização do Giant Language Mannequin (LLM), os engenheiros passaram os últimos anos desenvolvendo rituais cada vez mais esotéricos para obter melhores respostas.

Vimos “Cadeia de Pensamento” (pedir ao modelo para pensar passo a passo e, muitas vezes, mostrar esses “traços de raciocínio” ao usuário), “Chantagem Emocional” (dizer ao modelo que sua carreira depende da resposta, ou que é sendo acusado de má conduta sexual) e estruturas complexas de prompts multi-shot.

Mas um novo artigo divulgado pelo Google Analysis sugere que podemos ter pensado demais nisso. Os pesquisadores descobriram que simplesmente repetir a consulta de entrada – literalmente copiar e colar o immediate para que apareça duas vezes – melhora consistentemente o desempenho nos principais modelos, incluindo Gemini, GPT-4o, Claude e DeepSeek.

O artigo, intitulado “A repetição imediata melhora LLMs sem raciocínio”, lançado no mês passado, pouco antes das férias, apresenta uma descoberta que é quase suspeitamente simples: para tarefas que não exigem etapas de raciocínio complexas, declarar o immediate duas vezes produz resultados significativamente melhores do que afirmá-lo uma vez.

Melhor ainda, devido à forma como a arquitetura do transformador funciona, esse “truque estranho” vem com penalidade praticamente zero em termos de velocidade de geração.

O ponto cego causal

Para entender por que repetir uma pergunta torna um supercomputador mais inteligente, é necessário observar as limitações arquitetônicas do modelo padrão do Transformer.

A maioria dos LLMs modernos são treinados como modelos de linguagem “causais”. Isso significa que eles processam o texto estritamente da esquerda para a direita. Quando o modelo está processando o 5º token da sua frase, ele pode “atender” (prestar atenção) aos tokens 1 a 4, mas não tem conhecimento do token 6, porque isso ainda não aconteceu.

Isso cria uma restrição elementary na forma como os modelos entendem as consultas dos usuários. Como observam os autores, a ordem das informações é imensamente importante.

Uma consulta formatada como muitas vezes produz resultados diferentes dos porque, neste último caso, o modelo lê a questão antes de saber o contexto ao qual deve aplicá-la.

A repetição imediata quebra essa limitação, transformando uma entrada de em .

No momento em que o modelo começa a processar o segundo iteração da consulta, ele já “leu” a primeira iteração. Isso permite que os tokens da segunda cópia atendam a cada token da primeira cópia.

Efetivamente, a segunda repetição desfruta de uma forma de atenção bidirecional – ela pode “olhar para trás” para toda a consulta para resolver ambigüidades ou recuperar detalhes específicos que podem ter sido perdidos em uma única passagem.

Os benchmarks: 47 vitórias, 0 derrotas

Os pesquisadores Yaniv Leviathan, Matan Kalman e Yossi Matias testaram essa hipótese em um conjunto de sete benchmarks populares, incluindo ARC, OpenBookOA, GSM8K e MMLU-Professional. Eles avaliaram sete modelos diferentes, desde modelos leves como Gemini 2.0 Flash Lite e GPT-4o-mini até pesos pesados ​​como Claude 3.7 Sonnet e DeepSeek V3. Ao perguntar aos modelos não para usar o raciocínio explícito (ou seja, apenas dar uma resposta direta), a repetição imediata venceu 47 dos 70 testes comparativos em relação à linha de base, com zero perdas. A equipe projetou um benchmark personalizado “NameIndex”, onde o modelo recebe uma lista de 50 nomes e é solicitado a identificar o 25º.

Este salto massivo ilustra perfeitamente o “ponto cego causal”. Em uma única passagem, o modelo pode perder o controle da contagem quando atingir o 25º nome. Na passagem repetida, o modelo efetivamente tem a lista inteira em sua “memória de trabalho” antes de tentar resolver a tarefa de recuperação.

O “almoço grátis” da latência

Normalmente, adicionar texto a um immediate aumenta os custos e a latência. Se você dobrar a entrada, certamente dobrará o tempo de espera? Surpreendentemente, não. O artigo demonstra que a repetição de immediate é essencialmente “gratuita” em relação à latência percebida pelo usuário. O processamento LLM é dividido em dois estágios:

  1. Pré-preenchimento: O modelo processa o immediate de entrada. Isto é altamente paralelizável; a GPU pode processar toda a matriz de immediate simultaneamente.

  2. Geração (Decodificação): O modelo gera a resposta um token por vez. Isso é serial e lento.

A repetição imediata apenas aumenta o trabalho no pré-preencher estágio. Como o {hardware} moderno lida com o pré-preenchimento de forma tão eficiente, o usuário mal percebe a diferença. Os pesquisadores descobriram que repetir o immediate não não aumentou o comprimento da resposta gerada, nem aumentou a latência do “tempo até o primeiro token” para a maioria dos modelos. As únicas exceções foram os modelos da Anthropic (Claude Haiku e Sonnet) em solicitações extremamente longas, onde o estágio de pré-preenchimento eventualmente atingiu um gargalo. Mas, para a grande maioria dos casos de uso, a técnica melhora a precisão sem diminuir a velocidade da experiência de chat.

Raciocínio vs. Repetição

Há uma ressalva: esta técnica é principalmente para tarefas “sem raciocínio” – cenários onde você deseja uma resposta direta em vez de uma derivação passo a passo.

Quando os pesquisadores testaram a repetição imediata combinada com a “Cadeia de Pensamento” (pedindo ao modelo para “pensar passo a passo”), os ganhos desapareceram em grande parte, mostrando resultados neutros a ligeiramente positivos (5 vitórias, 1 derrota, 22 empates).

Os autores postulam que os próprios modelos de raciocínio executam naturalmente uma versão de repetição. Quando um modelo “pensa”, muitas vezes ele reafirma a premissa da questão no resultado gerado antes de resolvê-la. Portanto, repetir explicitamente o immediate na entrada torna-se redundante.

Entretanto, para aplicações onde você precisa de uma resposta rápida e direta, sem a verbosidade (e o custo) de um longo rastreamento de raciocínio, a repetição imediata oferece uma alternativa poderosa.

Implementação Estratégica para a Empresa

Para a liderança empresarial, esta pesquisa representa o que há de mais raro no desenvolvimento de IA: uma otimização “gratuita”. Mas a capitalização requer nuances; esta não é uma configuração para alternar cegamente entre toda a organização, mas sim um ajuste tático que se espalha pela engenharia, orquestração e segurança.

Para líderes técnicos que equilibram o eterno triângulo de velocidade, qualidade e custo, a repetição imediata oferece uma maneira de superar sua classe de peso. Os dados mostram que modelos menores e mais rápidos – como o Gemini 2.0 Flash Lite – podem alcançar uma precisão de recuperação quase perfeita (saltando de 21,33% para 97,33%) simplesmente processando a entrada duas vezes.

Isto muda o cálculo para a seleção de modelos: antes de atualizar para um modelo maior e mais caro para resolver um gargalo de precisão, os engenheiros devem primeiro testar se a simples repetição permite que seus modelos “Lite” atuais preencham a lacuna. É uma estratégia potencial para manter a velocidade e os benefícios de custo da infraestrutura leve, sem sacrificar o desempenho nas tarefas de extração e recuperação.

Essa lógica naturalmente transfere a carga para a camada de orquestração. Para aqueles que gerenciam o middleware e os gateways de API que unem os aplicativos de IA, a repetição imediata provavelmente deve se tornar um componente padrão e invisível da lógica do pipeline, em vez de um comportamento do usuário.

No entanto, como a técnica é neutra para tarefas de raciocínio pesado, mas altamente eficaz para respostas diretas, ela requer aplicação condicional. Um chicote de orquestração inteligente identificaria automaticamente as solicitações roteadas para endpoints sem raciocínio — como extração de entidade, classificação ou perguntas e respostas simples — e duplicaria o immediate antes de passá-lo para o modelo. Isto otimiza o desempenho ao nível da infraestrutura, proporcionando melhores resultados sem exigir ação dos utilizadores finais ou aumentar o orçamento de geração.

Finalmente, esta atenção acrescida introduz uma nova variável para as equipas de segurança.

Se a repetição de um immediate esclarece a intenção do usuário em relação ao modelo, é lógico que as intenções maliciosas também possam ser esclarecidas. Os diretores de segurança precisarão atualizar seus protocolos de red-teaming para testar ataques de “injeção repetida” – verificando se a repetição de um comando de jailbreak (por exemplo, “Ignorar instruções anteriores”) faz com que o modelo “atenda” à violação de forma mais eficaz. Por outro lado, este mecanismo oferece uma nova ferramenta defensiva: repetir prompts do sistema.

A indicação de guardas de segurança duas vezes no início da janela de contexto poderia forçar o modelo a atender às restrições de segurança com mais rigor, agindo como um reforço de baixo custo para operações de segurança robustas.

Por que isso é importante

Esta pesquisa destaca uma visão essential para os desenvolvedores que desenvolvem LLMs: nossos modelos atuais ainda estão profundamente limitados por sua natureza unidirecional. Enquanto esperamos por novas arquiteturas que possam resolver a cegueira causal, soluções alternativas rudimentares, mas eficazes, como a repetição imediata, oferecem valor imediato. Os autores sugerem que isso pode se tornar um comportamento padrão para sistemas futuros.

Em breve poderemos ver mecanismos de inferência que duplicam silenciosamente nossos prompts em segundo plano antes de enviá-los ao modelo, ou modelos de “raciocínio” treinados para internalizar essa estratégia de repetição para serem mais eficientes. Por enquanto, se você está lutando para fazer com que um modelo siga instruções complexas ou recupere detalhes específicos de um documento longo, a solução pode não ser um immediate melhor. Talvez você só exact dizer isso novamente.

avots