Início Tecnologia O Sonnet 4.6 da Anthropic corresponde ao desempenho principal da IA ​​por...

O Sonnet 4.6 da Anthropic corresponde ao desempenho principal da IA ​​por um quinto do custo, acelerando a adoção empresarial

12
0

Antrópico na terça-feira foi lançado Soneto de Claude 4.6um modelo que equivale a um evento de reavaliação sísmica para a indústria de IA. Ele oferece inteligência quase emblemática a um custo médio e cai bem no meio de uma corrida corporativa sem precedentes para implantar agentes de IA e ferramentas de codificação automatizadas.

O modelo é uma atualização completa em codificação, uso de computador, raciocínio de longo contexto, planejamento de agente, trabalho de conhecimento e design. Possui uma janela de contexto de token de 1 milhão em beta. Agora é o modelo padrão em claude.ai e Claude Coworke o preço permanece estável em US$ 3/US$ 15 por milhão de tokens – o mesmo de seu antecessor, Sonnet 4.5.

Esse detalhe do preço é o título que mais importa. Carro-chefe da Antrópico Os modelos Opus custam US$ 15/US$ 75 por milhão de tokens – cinco vezes o preço do Soneto. No entanto, o desempenho que anteriormente exigiria um modelo da classe Opus – inclusive em tarefas de escritório economicamente valiosas do mundo actual – está agora disponível com o Sonnet 4.6. Para as milhares de empresas que agora implementam agentes de IA que fazem milhões de chamadas de API por dia, essa matemática muda tudo.

As pontuações de uso de computadores da Anthropic quase quintuplicaram em 16 meses. O modelo mais recente da empresa, Sonnet 4.6, obteve pontuação de 72,5 por cento no benchmark OSWorld-Verified, acima dos 14,9 por cento quando o recurso foi lançado pela primeira vez em outubro de 2024. (Fonte: Anthropic)

Por que o custo de operação de agentes de IA em escala caiu drasticamente

Para entender o significado deste lançamento, você precisa entender o momento em que ele chega. O ano passado foi dominado pelo fenômeno gêmeo de “codificação de vibração” e IA agente. Claude Code — a ferramenta de terminal voltada para desenvolvedores da Anthropic — tornou-se uma força cultural no Vale do Silício, com engenheiros construindo aplicativos inteiros por meio de conversas em linguagem pure. O New York Times traçou o perfil de sua ascensão meteórica em janeiro. The Verge declarou recentemente que Claude Code está tendo um verdadeiro “momento.” A OpenAI, por sua vez, vem travando sua própria ofensiva com aplicativos de desktop Codex e chips de inferência mais rápidos.

O resultado é uma indústria onde os modelos de IA já não são avaliados isoladamente. Eles são avaliados como motores dentro de agentes autônomos – sistemas que funcionam por horas, fazem milhares de chamadas de ferramentas, escrevem e executam códigos, navegam em navegadores e interagem com software program corporativo. Cada dólar gasto por milhão de tokens é multiplicado por essas milhares de ligações. Em escala, a diferença entre US$ 15 e US$ 3 por milhão de tokens de entrada não é incremental. É transformacional.

A tabela de benchmark divulgada pela Anthropic mostra um quadro impressionante. Sobre Banco SWE verificadoo teste padrão da indústria para codificação de software program do mundo actual, o Sonnet 4.6 obteve pontuação de 79,6% – quase igualando os 80,8% do Opus 4.6. No uso agente do computador (Verificado pelo OSWorld), Soneto 4.6 obteve 72,5%, essencialmente empatado com 72,7% do Opus 4.6. Em tarefas de escritório (PIBval-AA Elo), o Soneto 4.6 na verdade pontuou 1.633, superando 1.606 do Opus 4.6. Na análise financeira da agência, o Soneto 4.6 atingiu 63,3%, superando todos os modelos na comparação, incluindo o Opus 4.6 com 60,1%.

Estas não são diferenças marginais. Em muitas das categorias com as quais as empresas mais se preocupam, Soneto 4.6 combina ou supera modelos que custam cinco vezes mais para serem executados. Uma empresa que administra um agente de IA que processa 10 milhões de tokens por dia foi anteriormente forçada a escolher entre resultados inferiores a custos mais baixos ou resultados superiores com despesas crescentes. O Soneto 4.6 elimina em grande parte essa compensação.

Em Código Claudeos primeiros testes descobriram que os usuários preferiam Soneto 4.6 acima do Soneto 4.5 cerca de 70% das vezes. Os usuários até preferiram o Sonnet 4.6 ao Opus 4.5, modelo de fronteira da Anthropic de novembro, 59% das vezes. Eles classificaram o Sonnet 4.6 como significativamente menos propenso ao excesso de engenharia e à “preguiça”, e significativamente melhor no seguimento de instruções. Eles relataram menos alegações falsas de sucesso, menos alucinações e um acompanhamento mais consistente em tarefas de várias etapas.

Soneto-4.6-Eval-Table-Blog-Highlight-A-2x

O Sonnet 4.6 da Anthropic, um modelo intermediário, iguala ou se aproxima do desempenho da principal linha Opus da empresa na maioria das categorias de benchmark – e frequentemente supera os modelos rivais do Google e OpenAI. (Fonte: Antrópico)

Como as habilidades de uso do computador de Claude passaram de “experimentais” a quase humanas em 16 meses

Uma das histórias mais dramáticas do lançamento é o progresso da Anthropic no uso do computador – a capacidade de uma IA de operar um computador da mesma forma que um ser humano, clicando no mouse, digitando no teclado e navegando em software program que não possui APIs modernas.

Quando a Anthropic introduziu esse recurso pela primeira vez em outubro de 2024, a empresa reconheceu que period “ainda experimental – às vezes complicado e sujeito a erros”. Os números desde então contam uma história notável: em OSWorldClaude Sonnet 3,5 obteve pontuação de 14,9% em outubro de 2024. O Soneto 3,7 atingiu 28,0% em fevereiro de 2025. O Soneto 4 atingiu 42,2% em junho. O Soneto 4.5 subiu para 61,4% em outubro. Agora o Sonnet 4.6 atingiu 72,5% – uma melhoria de quase cinco vezes em 16 meses.

Isso é importante porque o uso do computador é o recurso que abre o conjunto mais amplo de aplicativos empresariais para agentes de IA. Quase todas as organizações possuem software program legado – portais de seguros, bancos de dados governamentais, sistemas ERP, ferramentas de agendamento hospitalar – que foram desenvolvidos antes da existência das APIs. Um modelo que pode simplesmente olhar para uma tela e interagir com ela abre tudo isso para a automação sem construir conectores personalizados.

Jamie Cuffe, CEO da Tempo, disse que o Sonnet 4.6 atingiu 94% em seu complexo benchmark de uso de computadores em seguros, o mais alto de qualquer modelo Claude testado. “Ele raciocina através de falhas e se autocorrige de maneiras que nunca vimos antes”, disse Cuffe em comunicado enviado ao VentureBeat. Will Harvey, cofundador da Convey, chamou isso de “uma clara melhoria em relação a qualquer outra coisa que testamos em nossas avaliações”.

A dimensão da segurança no uso do computador também recebeu atenção. A Antthropic observou que o uso do computador representa riscos de injeção imediata — atores mal-intencionados que escondem instruções em websites para sequestrar o modelo — e disseram que suas avaliações mostram que o Sonnet 4.6 é uma grande melhoria em relação ao Sonnet 4.5 na resistência a tais ataques. Para empresas que implantam agentes que navegam na Net e interagem com sistemas externos, esse reforço não é opcional.

Os clientes empresariais dizem que o modelo preenche a lacuna entre os níveis de preços Sonnet e Opus

A reação do cliente tem sido extraordinariamente específica em relação à dinâmica custo-desempenho. Vários testadores iniciais descreveram explicitamente o Sonnet 4.6 como eliminando a necessidade de alcançar o nível Opus mais caro.

Caitlin Colgrove, CTO da Hex Applied sciences, disse que a empresa está transferindo a maior parte de seu tráfego para Soneto 4.6observando que, com pensamento adaptativo e alto esforço, “vemos desempenho de nível Opus em todas as tarefas analíticas, exceto nas mais difíceis, com um perfil mais eficiente e flexível. Com o preço do Sonnet, é uma decisão fácil para nossas cargas de trabalho”.

Ben Kus, CTO da Field, disse que o modelo superou o Sonnet 4.5 em perguntas e respostas de raciocínio pesado em 15 pontos percentuais em documentos empresariais reais. Michele Catasta, presidente da Replit, classificou a relação desempenho-custo como “extraordinária”. Ryan Wiggins, do Mercury Banking, foi mais direto: “Claude Sonnet 4.6 é mais rápido, mais barato e tem maior probabilidade de acertar na primeira tentativa. Essa combinação foi uma combinação surpreendente de melhorias e não esperávamos vê-la nessa faixa de preço.”

As melhorias de codificação repercutem especialmente devido ao domínio de Claude Code no mercado de ferramentas para desenvolvedores. David Loker, vice-presidente de IA da CodeRabbit, disse que o modelo “está muito acima de sua classe de peso para a grande maioria dos PRs do mundo actual”. Leo Tchourakov, da Manufacturing unit AI, disse que a equipe está “fazendo a transição do tráfego do Sonnet para este modelo”. O vice-presidente de produto do GitHub, Joe Binder, confirmou que o modelo “já é excelente em correções de códigos complexos, especialmente quando a pesquisa em grandes bases de código é essencial”.

Brendan Falk, fundador e CEO da Hercules, foi além: “Claude Sonnet 4.6 é o melhor modelo que vimos até hoje. Ele tem precisão de nível Opus 4.6, seguimento de instruções e UI, tudo por um custo significativamente menor.”

Soneto-4.6-Saldo monetário ao longo do tempo-2x

Num ambiente de negócios simulado, o Sonnet 4.6 quase triplicou os ganhos do seu antecessor ao longo de um ano, sugerindo uma melhoria acentuada na tomada de decisões em tarefas complexas e de longo prazo. (Fonte: Antrópico, Merchandising-Bench Area)

Uma simulação de competição empresarial revela como os agentes de IA planejam durante meses, não minutos

Enterrada nos detalhes técnicos está uma capacidade que indica para onde os agentes autônomos de IA estão indo. A janela de contexto de token de 1 milhão do Sonnet 4.6 pode conter bases de código inteiras, contratos longos ou dezenas de artigos de pesquisa em uma única solicitação. A Antthropic diz que o modelo raciocina de forma eficaz em todo esse contexto – uma afirmação que a empresa demonstrou por meio de uma avaliação incomum.

O Arena de bancos de vendas testa quão bem um modelo pode administrar um negócio simulado ao longo do tempo, com diferentes modelos de IA competindo entre si pelos maiores lucros. Sem orientação humana, Soneto 4.6 desenvolveu uma estratégia inovadora: investiu fortemente em capacidade durante os primeiros dez meses simulados, gastando significativamente mais do que os seus concorrentes, e depois mudou drasticamente para se concentrar na rentabilidade na reta ultimate. O modelo encerrou sua simulação de 365 dias com saldo de aproximadamente US$ 5.700, em comparação com os cerca de US$ 2.100 do Sonnet 4.5.

Esse tipo de planejamento estratégico plurianual, executado de forma autônoma, representa uma capacidade qualitativamente diferente de responder perguntas ou gerar trechos de código. É o tipo de raciocínio de longo horizonte que torna os agentes de IA viáveis ​​para operações comerciais reais — e ajuda a explicar por que a Anthropic está posicionando o Sonnet 4.6 não apenas como uma atualização de chatbot, mas como o motor para uma nova geração de sistemas autônomos.

O Soneto 4.6 da Anthropic chega à medida que a empresa se expande para os mercados corporativos e de defesa

Esta versão não chega no vácuo. A Antrópica está no meio do período mais importante de sua história e o cenário competitivo está se intensificando em todas as frentes.

No mesmo dia deste lançamento, o TechCrunch informou que a gigante indiana de TI Infosys anunciou parceria com Anthropic para construir agentes de IA de nível empresarial, integrando modelos Claude na plataforma Topaz AI da Infosys para bancos, telecomunicações e manufatura. O CEO da Anthropic, Dario Amodei, disse ao TechCrunch que há “uma grande lacuna entre um modelo de IA que funciona em uma demonstração e outro que funciona em uma indústria regulamentada”, e que a Infosys ajuda a colmatar isso. O TechCrunch também informou que a Anthropic abriu seu primeiro escritório na Índia em Bengaluru, e que a Índia agora é responsável por cerca de 6% do uso international de Claude, perdendo apenas para os EUA. US$ 183 bilhõesvem expandindo rapidamente sua presença empresarial.

Enquanto isso, a presidente da Anthropic, Daniela Amodei, disse à ABC Information na semana passada que a IA tornaria os cursos de humanidades “mais importante do que nunca”, argumentando que as habilidades de pensamento crítico se tornariam mais valiosas à medida que grandes modelos de linguagem dominassem o trabalho técnico. É o tipo de afirmação que uma empresa faz quando acredita que sua tecnologia está prestes a remodelar categorias inteiras de empregos de colarinho branco.

O quadro competitivo para Soneto 4.6 também é notável. O modelo supera o Gemini 3 Professional do Google e o GPT-5.2 da OpenAI em vários benchmarks. GPT-5.2 rastreia o uso de computador por agentes (38,2% vs. 72,5%), pesquisa por agentes (77,9% vs. 74,7% para a pontuação não-Professional do Sonnet 4.6) e análise financeira por agentes (59,0% vs. 63,3%). O Gemini 3 Professional apresenta desempenho competitivo em raciocínio visible e benchmarks multilíngues, mas fica para trás nas categorias de agentes onde o investimento empresarial está aumentando.

A conclusão mais ampla pode não ser sobre um único modelo. É sobre o que acontece quando a inteligência da classe Opus fica disponível por alguns dólares por milhão de tokens, em vez de algumas dezenas de dólares. As empresas que pilotavam cautelosamente agentes de IA com pequenas implantações agora enfrentam um cálculo de custos fundamentalmente diferente. Os agentes que eram demasiado caros para funcionar continuamente em Janeiro tornaram-se subitamente acessíveis em Fevereiro.

Soneto de Claude 4.6 está disponível agora em todos os planos Claude, Claude Cowork, Claude Code, API e todas as principais plataformas de nuvem. A Anthropic também atualizou seu nível gratuito para Sonnet 4.6 por padrão. Os desenvolvedores podem acessá-lo imediatamente usando claude-sonnet-4-6 através da API Claude.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui