No mês passado, escrevi sobre o novo benchmark da Mercor que mede as capacidades dos agentes de IA em tarefas profissionais como direito e análise corporativa. Na altura, as pontuações eram bastante sombrias, com todos os grandes laboratórios a pontuarem abaixo dos 25%, por isso concluímos que os advogados estavam a salvo do deslocamento da IA, pelo menos por agora.
Mas as capacidades de IA podem mudar muito em algumas semanas.
O lançamento desta semana do Opus 4.6 da Anthropic abalou as tabelas de classificaçãocom o novo modelo da Anthropic pontuando apenas 30% em testes únicos e uma média de 45% quando são dadas mais algumas soluções para o problema. Notavelmente, o lançamento incluiu vários novos recursos de agente, incluindo “enxames de agentes”, que podem ter ajudado nesse tipo de solução de problemas em várias etapas.
Independentemente disso, a pontuação representa um grande salto em relação ao estado da arte anterior e um sinal de que o progresso nos modelos básicos não está a abrandar. O CEO da Mercor, Brendan Foody, que ficou particularmente impressionado, disse: “saltar de 18,4% para 29,8% em poucos meses é uma loucura”.
Trinta por cento ainda está muito longe de 100%, então não é como se os advogados precisassem se preocupar em serem substituídos por máquinas na próxima semana. Mas eles deveriam estar muito menos confiantes do que no mês passado!












