A corrida armamentista para construir modelos de IA mais inteligentes tem um problema de medição: os testes usados para classificá-los estão se tornando obsoletos quase tão rapidamente quanto os modelos melhoram. Na segunda-feira, Análise Artificialuma organização independente de benchmarking de IA cujas classificações são acompanhadas de perto por desenvolvedores e compradores empresariais, lançou uma grande reformulação em seu Índice de Inteligência isso muda fundamentalmente a forma como a indústria mede o progresso da IA.
O novo Índice de Inteligência v4.0 incorpora 10 avaliações abrangendo agentes, codificação, raciocínio científico e conhecimentos gerais. Mas as mudanças vão muito mais fundo do que embaralhar os nomes dos testes. A organização removeu três benchmarks básicos – MMLU-Pro, AIME 2025e LiveCodeBench – que há muito são citados pelas empresas de IA em seus materiais de advertising and marketing. Em seu lugar, o novo índice introduz avaliações destinadas a medir se os sistemas de IA podem completar o tipo de trabalho para o qual as pessoas são realmente pagas.
“Esta mudança no índice reflete uma transição mais ampla: a inteligência está sendo medida menos pela recordação e mais por ações economicamente úteis”, observou Aravind Sundarpesquisador que respondeu ao anúncio no X (antigo Twitter).
Por que os benchmarks de IA estão quebrando: o problema com os testes que os principais modelos já dominam
A revisão do benchmark aborda uma crise crescente na avaliação da IA: os principais modelos tornaram-se tão capazes que os testes tradicionais já não conseguem diferenciá-los de forma significativa. O novo índice torna deliberadamente mais difícil subir a curva. De acordo com Análise Artificialos principais modelos agora pontuam 50 ou menos na nova escala v4.0, em comparação com 73 na versão anterior – uma recalibração projetada para restaurar o espaço para melhorias futuras.
Este problema de saturação tem atormentado a indústria há meses. Quando cada modelo de fronteira atinge o percentil 90 num determinado teste, o teste perde a sua utilidade como ferramenta de tomada de decisão para empresas que tentam escolher qual o sistema de IA a implementar. A nova metodologia tenta resolver este problema ponderando igualmente quatro categorias – Agentes, Codificação, Raciocínio Científico e Geral – ao mesmo tempo que introduz avaliações onde mesmo os sistemas mais avançados ainda têm dificuldades.
Os resultados sob a nova estrutura mostram o desempenho da OpenAI GPT-5.2 com extenso esforço de raciocínio reivindicando o primeiro lugar, seguido de perto pelo Anthropic’s Claude Opus 4.5 e do Google Gêmeos 3 Pró. OpenAI descreve GPT-5.2 como “a série de modelos mais capaz até agora para trabalho de conhecimento profissional”, enquanto Claude Opus 4.5 da Anthropic tem pontuação superior a GPT-5.2 em SWE-Bench verificadoum conjunto de testes que avalia as habilidades de codificação de software program.
GDPval-AA: O novo benchmark que testa se a IA pode fazer o seu trabalho
A adição mais significativa ao novo índice é PIBval-AAuma avaliação baseada no OpenAI Conjunto de dados GDPval que testa modelos de IA em tarefas economicamente valiosas do mundo actual em 44 ocupações e 9 grandes indústrias. Ao contrário dos benchmarks tradicionais que pedem aos modelos que resolvam problemas matemáticos abstratos ou respondam a curiosidades de múltipla escolha, o GDPval-AA mede se a IA pode produzir os resultados que os profissionais realmente criam: documentos, slides, diagramas, planilhas e conteúdo multimídia.
Os modelos recebem acesso ao shell e recursos de navegação na net por meio do que a Análise Synthetic chama de “Stirrup”, seu equipamento de referência. As pontuações são derivadas de comparações cegas aos pares, com classificações ELO congeladas no momento da avaliação para garantir a estabilidade do índice.
Sob esta estrutura, o GPT-5.2 da OpenAI com raciocínio estendido lidera com uma pontuação ELO de 1442, enquanto a variante não pensante Claude Opus 4.5 da Anthropic segue com 1403. Claude Sonnet 4.5 segue com 1259.
Na avaliação authentic do PIBval, o GPT-5.2 superou ou empatou os principais profissionais da indústria em 70,9% das tarefas bem especificadas, de acordo com a OpenAI. A empresa reivindicações GPT-5.2 “supera os profissionais da indústria em tarefas de trabalho de conhecimento bem especificadas, abrangendo 44 ocupações”, com empresas como Notion, Field, Shopify, Harvey e Zoom observando “raciocínio de longo horizonte de última geração e desempenho de chamada de ferramentas”.
A ênfase na produção economicamente mensurável é uma mudança filosófica na forma como a indústria pensa sobre a capacidade da IA. Em vez de perguntar se um modelo pode passar num exame da ordem ou resolver problemas matemáticos de competição – conquistas que geram manchetes, mas não se traduzem necessariamente em produtividade no native de trabalho – os novos parâmetros de referência perguntam se a IA pode realmente fazer trabalhos.
Problemas de física em nível de pós-graduação expõem os limites dos modelos de IA mais avançados da atualidade
Enquanto PIBval-AA mede a produtividade prática, outra nova avaliação chamada CritPT revela até que ponto os sistemas de IA permanecem do verdadeiro raciocínio científico. O benchmark testa modelos de linguagem em tarefas de raciocínio não publicadas em nível de pesquisa em física moderna, incluindo matéria condensada, física quântica e astrofísica.
CritPT foi desenvolvido por mais de 50 pesquisadores ativos de física de mais de 30 instituições líderes. Seus 71 desafios de pesquisa compostos simulam projetos de pesquisa em grande escala no nível inicial – comparáveis aos exercícios de aquecimento que um investigador principal prático pode atribuir a estudantes juniores de pós-graduação. Cada problema é selecionado manualmente para produzir uma resposta resistente a suposições e verificável por máquina.
Os resultados são preocupantes. Os atuais modelos de última geração continuam longe de resolver de forma confiável os desafios em escala whole de pesquisa. GPT-5.2 com raciocínio estendido leva o Tabela de classificação do CritPT com uma pontuação de apenas 11,5%, seguido pelo Gemini 3 Professional Preview do Google e pela variante Claude 4.5 Opus Considering da Anthropic. Estas pontuações sugerem que, apesar do progresso notável nas tarefas voltadas para o consumidor, os sistemas de IA ainda lutam com o tipo de raciocínio profundo necessário para a descoberta científica.
Taxas de alucinação de IA: por que os modelos mais precisos nem sempre são os mais confiáveis
Talvez a nova avaliação mais reveladora seja AA-Onisciênciaque mede a recordação factual e a alucinação em 6.000 perguntas que cobrem 42 tópicos economicamente relevantes em seis domínios: Negócios, Saúde, Direito, Engenharia de Software program, Ciências Humanas e Sociais e Ciências/Engenharia/Matemática.
A avaliação produz uma Índice de Onisciência que recompensa o conhecimento preciso ao mesmo tempo que penaliza as respostas alucinadas – fornecendo informações sobre se um modelo pode distinguir o que sabe do que não sabe. As descobertas expõem uma verdade incômoda: alta precisão não garante baixa alucinação. Modelos com a mais alta precisão muitas vezes não conseguem liderar no Índice de Onisciência porque tendem a adivinhar em vez de se absterem quando estão incertos.
do Google Pré-visualização do Gêmeos 3 Pro lidera o Índice de Onisciência com uma pontuação de 13, seguido por Claude Opus 4.5 Considering e Gemini 3 Flash Reasoning, ambos com 10. No entanto, a divisão entre precisão e taxas de alucinação revela um quadro mais complexo.
Na precisão bruta, os dois modelos do Google lideram com pontuações de 54% e 51%, respectivamente, seguidos por Claude 4.5 Opus Pensamento em 43%. Mas os modelos do Google também demonstram taxas de alucinação mais altas do que os modelos similares, com pontuações de 88% e 85%. Claude 4.5 Sonnet Considering e Claude Opus 4.5 Considering da Anthropic mostram taxas de alucinação de 48% e 58%, respectivamente, enquanto GPT-5.1 com alto esforço de raciocínio atinge 51% – a segunda menor taxa de alucinação testada.
Tanto a Precisão da Onisciência quanto a Taxa de Alucinação contribuem com 6,25% de ponderação cada para o Índice de Inteligência geral v4.
Por dentro da corrida armamentista de IA: como OpenAI, Google e Anthropic se comparam sob novos testes
A remodelação dos benchmarks chega num momento especialmente turbulento na indústria da IA. Todos os três principais desenvolvedores de modelos de fronteira lançaram novos modelos importantes em apenas algumas semanas – e Gêmeos 3 ainda ocupa o primeiro lugar em muitas das tabelas de classificação em LMArenauma ferramenta de benchmarking amplamente citada usada para comparar LLMs.
O lançamento do Gemini 3 pelo Google em novembro foi solicitado OpenAI declarará um esforço de “código vermelho” para melhorar o ChatGPT. A OpenAI conta com sua família de modelos GPT para justificar sua Avaliação de US$ 500 bilhões e mais US$ 1,4 trilhão em gastos planejados. “Anunciamos este código vermelho para realmente sinalizar à empresa que queremos concentrar recursos em uma área específica”, disse Fidji Simo, CEO de aplicativos da OpenAI. Altman disse à CNBC ele esperava que a OpenAI saísse de seu código vermelho em janeiro.
A Antrópica respondeu com Claude Opus 4.5 em 24 de novembro, alcançando um SWE-Bench verificado pontuação de precisão de 80,9% – recuperando a coroa de codificação de ambos GPT-5.1-Codex-Max e Gêmeos 3. O lançamento marcou o terceiro grande lançamento de modelo da Anthropic em dois meses. Desde então, a Microsoft e a Nvidia anunciaram investimentos multibilionários na Anthropic, aumentando sua avaliação para cerca de US$ 350 bilhões.
Como a Análise Synthetic testa modelos de IA: uma análise do processo de benchmarking independente
Análise Artificial salienta que todas as avaliações são realizadas de forma independente, utilizando uma metodologia padronizada. A organização afirma que a sua “metodologia enfatiza a imparcialidade e a aplicabilidade no mundo actual”, estimando um intervalo de confiança de 95% para o Índice de Inteligência inferior a ±1% com base em experiências com mais de 10 repetições em determinados modelos.
A organização publicou metodologia outline termos-chave que os compradores empresariais devem compreender. De acordo com a documentação da metodologia, a Análise Synthetic considera um “endpoint” como uma instância hospedada de um modelo acessível através de uma API – o que significa que um único modelo pode ter vários endpoints em diferentes provedores. Um “provedor” é uma empresa que hospeda e fornece acesso a um ou mais modelos de endpoints ou sistemas. Criticamente, a Análise Synthetic distingue entre modelos de “pesos abertos”, cujos pesos foram divulgados publicamente, e modelos verdadeiramente de código aberto – observando que muitos LLMs abertos foram lançados com licenças que não atendem à definição completa de software program de código aberto.
A metodologia também esclarece como a organização padroniza a medição de tokens: ela usa tokens OpenAI medidos com o pacote tiktoken da OpenAI como uma unidade padrão em todos os provedores para permitir comparações justas.
O que o novo Índice de Inteligência de IA significa para as decisões tecnológicas empresariais em 2026
Para os tomadores de decisão técnicos que avaliam sistemas de IA, o Índice de Inteligência v4.0 fornece uma imagem de capacidade com mais nuances do que compilações de benchmark anteriores. A ponderação igual entre agentes, codificação, raciocínio científico e conhecimento geral significa que as empresas com casos de utilização específicos podem querer examinar pontuações específicas de categorias em vez de confiar apenas no índice agregado.
A introdução da medição de alucinações como um fator distinto e ponderado aborda uma das preocupações mais persistentes na adoção da IA pelas empresas. Um modelo que parece altamente preciso, mas que frequentemente alucina quando incerto, representa riscos significativos em setores regulamentados como saúde, finanças e direito.
O Índice de Inteligência de Análise Synthetic é descrito como “um conjunto de avaliação do idioma inglês somente em texto”. A organização compara modelos para entradas de imagem, entradas de fala e desempenho multilíngue separadamente.
A resposta ao anúncio foi amplamente positiva. “É ótimo ver o índice evoluindo para reduzir a saturação e focar mais no desempenho da agência”, escreveu um comentarista em um Postagem X.com. “Incluir tarefas do mundo actual como GDPval-AA torna as pontuações muito mais relevantes para uso prático.”
Outros deram uma nota mais ambiciosa. “A nova onda de modelos que está prestes a surgir irá deixá-los todos para trás”, previu um observador. “Até o ultimate do ano a singularidade será inegável.”
Mas quer essa previsão se revele profética ou prematura, uma coisa já está clara: a period de julgar a IA pela forma como responde às perguntas dos testes está a terminar. O novo padrão é mais simples e com muito mais consequências – será que ele consegue fazer o trabalho?










