Início Tecnologia Qwen3-Max Pondering vence Gemini 3 Professional e GPT-5.2 no Último Exame da...

Tecnologia

Qwen3-Max Pondering vence Gemini 3 Professional e GPT-5.2 no Último Exame da Humanidade (com pesquisa)

Por

27 Janeiro 2026

As empresas chinesas de IA e tecnologia continuam a impressionar com o desenvolvimento de modelos de linguagem de IA de última geração.

Hoje, quem chama a atenção é a equipe Qwen de pesquisadores de IA da Alibaba Cloud e a revelação de um novo modelo de raciocínio de linguagem proprietário, Qwen3-Max-Pensando.

Você deve se lembrar, como a VentureBeat cobriu no ano passado, que Qwen fez seu nome no mercado world de IA em rápida evolução, fornecendo uma variedade de modelos poderosos e de código aberto em várias modalidades, de texto a imagem e áudio falado. A empresa até ganhou o endosso da gigante norte-americana de hospedagem de tecnologia Airbnb, cujo CEO e cofundador Brian Chesky disse que a empresa estava confiando nos modelos gratuitos e de código aberto de Qwen como uma alternativa mais acessível às ofertas dos EUA, como as da OpenAI.

Agora, com o Qwen3-Max-Pondering proprietário, a equipe Qwen pretende igualar e, em alguns casos, superar as capacidades de raciocínio do GPT-5.2 e Gemini 3 Professional por meio de eficiência arquitetônica e autonomia de agente.

O lançamento chega em um momento crítico. Os laboratórios ocidentais definiram amplamente a categoria de “raciocínio” (muitas vezes apelidada de lógica do “Sistema 2”), mas os últimos benchmarks de Qwen sugerem que a lacuna foi eliminada.

Além disso, o preço relativamente acessível da empresa Estratégia de preços de API visa agressivamente a adoção empresarial. No entanto, como se trata de um modelo chinês, algumas empresas norte-americanas com requisitos e considerações estritas de segurança nacional podem ter receio de adotá-lo.

A Arquitetura: “Escala de Tempo de Teste” Redefinida

A principal inovação que impulsiona o Qwen3-Max-Pondering é um afastamento dos métodos de inferência padrão. Embora a maioria dos modelos gere tokens linearmente, o Qwen3 utiliza um “modo pesado” conduzido por uma técnica conhecida como “escalonamento em tempo de teste”.

Em termos simples, esta técnica permite que o modelo troque computação por inteligência. Mas, ao contrário da amostragem ingênua do tipo “melhor de N” – onde um modelo pode gerar 100 respostas e escolher a melhor – o Qwen3-Max-Pondering emprega uma estratégia multi-rodada de experiência cumulativa.

Essa abordagem imita a resolução humana de problemas. Quando o modelo encontra uma consulta complexa, ele não apenas adivinha; ele se envolve em autorreflexão iterativa. Ele usa um mecanismo proprietário de “experiência” para destilar insights de etapas de raciocínio anteriores. Isso permite que o modelo:

Identifique becos sem saída: Reconheça quando uma linha de raciocínio está falhando sem precisar percorrê-la completamente.
Computação de foco: Redirecione o poder de processamento para “incertezas não resolvidas” em vez de derivar novamente conclusões conhecidas.

Os ganhos de eficiência são tangíveis. Ao evitar raciocínios redundantes, o modelo integra um contexto histórico mais rico na mesma janela. A equipe Qwen relata que esse método gerou grandes saltos de desempenho sem explodir os custos de token:

Além do pensamento puro: ferramentas adaptativas

Embora os modelos de “pensamento” sejam poderosos, eles têm sido historicamente isolados – ótimos em matemática, mas ruins em navegar na net ou executar código. Qwen3-Max-Pondering preenche essa lacuna integrando efetivamente os “modos de pensar e não pensar”.

O modelo apresenta recursos adaptativos de uso de ferramentas, o que significa que seleciona de forma autônoma a ferramenta certa para o trabalho, sem necessidade de solicitação guide do usuário. Ele pode alternar perfeitamente entre:

Pesquisa e extração na Internet: Para consultas factuais em tempo actual.
Memória: Para armazenar e recuperar o contexto específico do usuário.
Intérprete de código: Escrever e executar snippets Python para tarefas computacionais.

No “Modo de Pensamento”, o modelo oferece suporte a essas ferramentas simultaneamente. Esse recurso é basic para aplicativos corporativos onde um modelo pode precisar verificar um fato (Pesquisa), calcular uma projeção (Interpretador de Código) e então raciocinar sobre a implicação estratégica (Pensamento), tudo de uma vez.

Empiricamente, a equipa observa que esta combinação “mitiga eficazmente as alucinações”, uma vez que o modelo pode basear o seu raciocínio em dados externos verificáveis, em vez de confiar apenas nos seus pesos de treino.

Análise de benchmark: a história dos dados

Qwen não tem vergonha de comparações diretas.

No HMMT de 25 de fevereiro, um benchmark de raciocínio rigoroso, Qwen3-Max-Pondering obteve pontuação de 98,0, superando o Gemini 3 Professional (97,5) e liderando significativamente o DeepSeek V3.2 (92,5).

No entanto, o sinal mais significativo para os desenvolvedores é, sem dúvida, o Agentic Search. No “Último Exame da Humanidade” (HLE) – o benchmark que mede o desempenho em 3.000 questões de pós-graduação “à prova do Google” em matemática, ciências, ciência da computação, humanidades e engenharia – Qwen3-Max-Pondering, equipado com ferramentas de pesquisa na net, obteve pontuação de 49,8, superando Gemini 3 Professional (45,8) e GPT-5.2-Pondering (45,5) .

Principais benchmarks Qwen3-Max. Crédito: Equipe Alibaba Cloud Qwen no X

Isso sugere que a arquitetura do Qwen3-Max-Pondering é especialmente adequada para fluxos de trabalho de agência complexos e de várias etapas, onde a recuperação externa de dados é necessária.

Nas tarefas de codificação, o modelo também brilha. No Enviornment-Laborious v2, obteve uma pontuação de 90,2, deixando concorrentes como Claude-Opus-4,5 (76,7) para trás.

A Economia do Raciocínio: Análise de Preços

Pela primeira vez, temos uma visão clara da economia do modelo de raciocínio de nível superior de Qwen. Alibaba Cloud posicionou-se qwen3-max-2026-01-23 como uma oferta premium, mas acessível em sua API.

Em um nível básico, veja como o Qwen3-Max-Pondering se compara:

Modelo	Entrada (/1M)	Saída (/1M)	Custo complete	Fonte
Qwen3 Turbo	US$ 0,05	US$ 0,20	US$ 0,25	Nuvem Alibaba
Grok 4.1 Rápido (raciocínio)	US$ 0,20	US$ 0,50	US$ 0,70	xAI
Grok 4.1 Rápido (sem raciocínio)	US$ 0,20	US$ 0,50	US$ 0,70	xAI
deepseek-chat (V3.2-Exp)	US$ 0,28	US$ 0,42	US$ 0,70	DeepSeek
raciocinador de busca profunda (V3.2-Exp)	US$ 0,28	US$ 0,42	US$ 0,70	DeepSeek
Qwen 3 Plus	US$ 0,40	US$ 1,20	US$ 1,60	Nuvem Alibaba
ERNIE 5.0	US$ 0,85	US$ 3,40	US$ 4,25	Qian Fan
Pré-visualização em Flash do Gêmeos 3	US$ 0,50	US$ 3,00	US$ 3,50	Google
Claude Haiku 4.5	US$ 1,00	US$ 5,00	US$ 6,00	Antrópico
Pensamento Qwen3-Max (23/01/2026)	US$ 1,20	US$ 6,00	US$ 7,20	Nuvem Alibaba
Gêmeos 3 Professional (≤200K)	US$ 2,00	US$ 12,00	US$ 14,00	Google
GPT-5.2	US$ 1,75	US$ 14,00	US$ 15,75	OpenAI
Soneto de Claude 4.5	US$ 3,00	US$ 15,00	US$ 18,00	Antrópico
Gêmeos 3 Professional (>200K)	US$ 4,00	US$ 18,00	US$ 22,00	Google
Claude Opus 4.5	US$ 5,00	US$ 25,00	US$ 30,00	Antrópico
GPT-5.2 Pró	US$ 21,00	US$ 168,00	US$ 189,00	OpenAI

Esta estrutura de preços é agressiva, prejudicando muitos modelos emblemáticos legados, ao mesmo tempo que oferece desempenho de última geração.

No entanto, os desenvolvedores devem observar o preço granular dos novos recursos de agente, já que Qwen separa o custo de “pensar” (tokens) do custo de “fazer” (uso de ferramentas).

Estratégia de busca de agentes: Ambos padrão search_strategy:agent e quanto mais avançado search_strategy:agent_max custam US$ 10 por 1.000 chamadas.
Pesquisa na Internet: Custa US$ 10 por 1.000 chamadas por meio da API Responses.

Nível promocional gratuito:Para incentivar a adoção de seus recursos mais avançados, o Alibaba Cloud oferece atualmente duas ferramentas principais gratuitamente por tempo limitado:

Este modelo de preços (baixo custo de token + preços de ferramentas à la carte) permite que os desenvolvedores criem agentes complexos que são econômicos para processamento de texto, ao mesmo tempo que pagam um prêmio apenas quando ações externas – como uma pesquisa na net ao vivo – são explicitamente acionadas.

Ecossistema de Desenvolvedores

Reconhecendo que o desempenho é inútil sem integração, a Alibaba Cloud garantiu que o Qwen3-Max-Pondering esteja pronto para uso.

Compatibilidade OpenAI: A API suporta o formato OpenAI padrão, permitindo que as equipes troquem de modelo simplesmente alterando o base_url e mannequin nome.
Compatibilidade Antrópica: Em um movimento inteligente para capturar o mercado de codificação, a API também oferece suporte ao protocolo Antrópico. Isso torna o Qwen3-Max-Pondering compatível com Código Claudeum ambiente de codificação agente fashionable.

O veredicto

Qwen3-Max-Pondering representa um amadurecimento do mercado de IA em 2026. Ele transfer a conversa além de “quem tem o chatbot mais inteligente” para “quem tem o agente mais capaz”.

Ao combinar o raciocínio de alta eficiência com o uso adaptativo e autônomo de ferramentas – e definir o preço para sua movimentação – Qwen se estabeleceu firmemente como um candidato de primeira linha ao trono da IA corporativa.

Para desenvolvedores e empresas, as janelas “Restricted Time Free” no Code Interpreter e Internet Extractor sugerem que agora é a hora de experimentar. As guerras de raciocínio estão longe de terminar, mas Qwen acaba de implantar um rebatedor muito pesado.

avots

Qwen3-Max Pondering vence Gemini 3 Professional e GPT-5.2 no Último Exame da Humanidade (com pesquisa)

A Arquitetura: “Escala de Tempo de Teste” Redefinida

Além do pensamento puro: ferramentas adaptativas

Análise de benchmark: a história dos dados

A Economia do Raciocínio: Análise de Preços

Ecossistema de Desenvolvedores

O veredicto

DEIXE UMA RESPOSTA Cancelar resposta

Mais recente

Brandon Paul desmorona depois que a estrela do TikTok, MacKenzie Paul,...

Cody Bellinger e Yankees finalizam US$ 162,5 milhões em contrato de...

Postagem na mídia social sobre os filhos do prefeito do Tennessee...

Sadie Frost diz que Mail colocou ‘preço na minha cabeça’ por...

O próximo Galaxy Watch 9 pode chegar com uma atração surpresa

Ex-snowboarder canadense se declara inocente de dirigir rede de tráfico de...

Número de mortos em ataques dos EUA a barcos suspeitos de...

Sydney Sweeney não teve permissão para subir no letreiro de Hollywood...

Kings-Blue Jackets adiados e remarcados para 9 de março

Barras de chocolate recolhidas devido à potencial contaminação por Salmonella. O...