Desde 2024, a equipe de otimização de desempenho da Anthropic oferece aos candidatos a emprego um teste para levar para casa para garantir que eles conheçam o que estão fazendo. Mas à medida que as ferramentas de codificação de IA melhoraram, o teste teve que mudar muito para ficar à frente da trapaça assistida por IA.
O líder da equipe, Tristan Hume, descreveu a história do desafio em uma postagem no blog na quarta-feira. “Cada novo modelo de Claude nos forçou a redesenhar o teste”, escreve Hume. “Quando foi dado o mesmo limite de tempo, Claude Opus 4 superou a maioria dos candidatos humanos. Isso ainda nos permitiu distinguir os candidatos mais fortes – mas, então, Claude Opus 4.5 igualou até mesmo esses.”
O resultado é um sério problema de avaliação de candidatos. Sem supervisão pessoal, não há como garantir que alguém não esteja usando IA para colar no teste – e se o fizer, chegará rapidamente ao topo. “Sob as restrições do teste para levar para casa, já não tínhamos como distinguir entre o resultado dos nossos principais candidatos e o nosso modelo mais capaz”, escreve Hume.
A questão da trapaça da IA já está causando estragos em escolas e universidades em todo o mundo, tão irônico que os laboratórios de IA também tenham que lidar com isso. Mas a Anthropic também está excepcionalmente bem equipada para lidar com o problema.
No last, Hume projetou um novo teste que tinha menos a ver com otimização de {hardware}, tornando-o suficientemente novo para confundir as ferramentas contemporâneas de IA. Mas como parte da postagem, ele compartilhou o teste unique para ver se alguém que estivesse lendo poderia encontrar uma solução melhor.
“Se você puder melhorar o Opus 4.5”, diz o publish, “adoraríamos ouvir sua opinião”.













