Início Tecnologia O NousCoder-14B da Nous Analysis é um modelo de codificação de código...

O NousCoder-14B da Nous Analysis é um modelo de codificação de código aberto que chega bem no momento do Código Claude

26
0

Pesquisa Nousa startup de inteligência synthetic de código aberto apoiada por uma empresa de criptografia Paradigmalançou um novo modelo de programação competitivo na segunda-feira que, segundo ele, corresponde ou excede vários sistemas proprietários maiores – treinados em apenas quatro dias usando 48 dos mais recentes da Nvidia Processadores gráficos B200.

O modelo, chamado NousCoder-14Bé outra entrada em um campo lotado de assistentes de codificação de IA, mas chega em um momento particularmente carregado: Código Claudea ferramenta de programação agente da rival Anthropic, dominou as discussões nas redes sociais desde o dia de Ano Novo, com desenvolvedores postando sem fôlego depoimentos sobre suas capacidades. Os desenvolvimentos simultâneos sublinham a rapidez com que o desenvolvimento de software program assistido por IA está a evoluir – e como as pequenas e grandes empresas competem ferozmente para capturar o que muitos acreditam que se tornará uma tecnologia elementary para a forma como o software program é escrito.

NousCoder-14B atinge uma taxa de precisão de 67,87 por cento em LiveCodeBench v6uma avaliação padronizada que testa modelos sobre problemas de programação competitiva publicada entre agosto de 2024 e maio de 2025. Esse número representa uma melhoria de 7,08 pontos percentuais em relação ao modelo básico a partir do qual foi treinado, o Alibaba’s Qwen3-14Bde acordo com o relatório técnico da Nous Analysis publicado junto com o comunicado.

“Dei a Claude Code uma descrição do problema, ele gerou o que construímos no ano passado em uma hora”, escreveu Jaana Doganengenheiro principal do Google responsável pela API Gemini, em uma postagem viral no X na semana passada que capturou o clima predominante em torno das ferramentas de codificação de IA. Dogan estava descrevendo um sistema de orquestração de agentes distribuídos que sua equipe passou um ano desenvolvendo – um sistema Claude Code aproximado de um immediate de três parágrafos.

A justaposição é instrutiva: embora o Claude Code da Anthropic tenha capturado a imaginação com demonstrações de desenvolvimento de software program de ponta a ponta, a Nous Analysis aposta que alternativas de código aberto treinadas em problemas verificáveis ​​podem preencher a lacuna – e que a transparência na forma como esses modelos são construídos é tão importante quanto a capacidade bruta.


Como a Nous Analysis construiu um modelo de codificação de IA que qualquer pessoa pode replicar

O que distingue o NousCoder-14B A libertação de muitos anúncios de concorrentes é a sua abertura radical. A Nous Analysis publicou não apenas o pesos modelo mas o ambiente completo de aprendizagem por reforçoconjunto de benchmarks e equipamento de treinamento – construídos com base na experiência da empresa Estrutura Átropos – permitindo que qualquer pesquisador com computação suficiente reproduzir ou ampliar a obra.

“O código aberto da pilha Atropos fornece a infraestrutura necessária para pesquisas reproduzíveis de raciocínio em nível olímpico”, observou um observador em Xresumindo a importância para as comunidades acadêmicas e de código aberto.

O modelo foi treinado por Joe Lipesquisador residente na Nous Analysis e ex-programador competitivo. Li relatório técnico revela uma dimensão inesperadamente pessoal: ele comparou a trajetória de melhoria do modelo à sua própria jornada no Codeforces, a plataforma de programação competitiva onde os participantes ganham classificações com base no desempenho do concurso.

Com base em estimativas aproximadas que mapeiam as pontuações do LiveCodeBench para as classificações do Codeforces, Li calculou que a melhoria do NousCoder-14B – de aproximadamente a faixa de classificação 1600-1750 para 2100-2200 – reflete um salto que levou quase dois anos de prática sustentada entre as idades de 14 e 16 anos.

“Assistir ao desenrolar do treinamento closing foi uma experiência bastante surreal”, escreveu Li no relatório técnico.

Mas Li foi rápido em notar uma advertência importante que aborda questões mais amplas sobre a eficiência da IA: ele resolveu cerca de 1.000 problemas durante esses dois anos, enquanto o modelo exigia 24.000. Os humanos, pelo menos por enquanto, continuam sendo alunos dramaticamente mais eficientes em termos de amostragem.


Por dentro do sistema de aprendizagem por reforço que treina 24.000 problemas de programação competitiva

NousCoder-14BO processo de treinamento da AI oferece uma janela para as técnicas cada vez mais sofisticadas que os pesquisadores usam para melhorar as capacidades de raciocínio da IA ​​por meio do aprendizado por reforço.

A abordagem se baseia no que os pesquisadores chamam de “recompensas verificáveis” – um sistema onde o modelo gera soluções de código, essas soluções são executadas em casos de teste e o modelo recebe um sinal binário simples: correto ou incorreto. Este ciclo de suggestions, embora conceitualmente simples, requer infraestrutura significativa para ser executado em escala.

Pesquisa Nous usada Modaluma plataforma de computação em nuvem, para executar a execução de código em área restrita em paralelo. Cada um dos 24.000 problemas de treinamento contém, em média, centenas de casos de teste, e o sistema deve verificar se o código gerado produz resultados corretos dentro das restrições de tempo e memória – 15 segundos e 4 gigabytes, respectivamente.

O treinamento empregou uma técnica chamada DAPO (Otimização de Política de Amostragem Dinâmica)que os pesquisadores descobriram ter um desempenho ligeiramente melhor do que as alternativas em seus experimentos. Uma inovação importante envolve a “amostragem dinâmica” – descartando exemplos de treinamento em que o modelo resolve todas as tentativas ou falha em todas as tentativas, uma vez que estes não fornecem nenhum sinal de gradiente útil para o aprendizado.

Os pesquisadores também adotaram a “extensão de contexto iterativa”, primeiro treinando o modelo com uma janela de contexto de 32.000 tokens antes de expandir para 40.000 tokens. Durante a avaliação, estender ainda mais o contexto para aproximadamente 80.000 tokens produziu os melhores resultados, com precisão atingindo 67,87%.

Talvez o mais significativo seja que o pipeline de treinamento se sobrepõe à inferência e à verificação – assim que o modelo gera uma solução, ele começa a trabalhar no próximo problema enquanto a solução anterior está sendo verificada. Esse pipeline, combinado com o treinamento assíncrono, onde várias instâncias de modelo funcionam em paralelo, maximiza a utilização de {hardware} em clusters de GPU caros.


A iminente escassez de dados que pode retardar o progresso do modelo de codificação de IA

Enterrado em Li relatório técnico é uma descoberta com implicações significativas para o futuro do desenvolvimento de IA: o conjunto de dados de treinamento para NousCoder-14B abrange “uma parte significativa de todos os problemas de programação competitiva verificáveis ​​e prontamente disponíveis em um formato de conjunto de dados padronizado”.

Por outras palavras, para este domínio específico, os investigadores estão a aproximar-se dos limites dos dados de formação de alta qualidade.

“O número whole de problemas de programação competitiva na Web é aproximadamente da mesma ordem de grandeza”, escreveu Li, referindo-se aos 24 mil problemas usados ​​para treinamento. “Isto sugere que, dentro do domínio da programação competitiva, aproximámo-nos dos limites dos dados de alta qualidade.”

Esta observação reflecte a preocupação crescente em toda a indústria da IA ​​relativamente às restrições de dados. Embora a computação proceed a crescer de acordo com princípios económicos e de engenharia bem compreendidos, os dados de formação são “cada vez mais finitos”, como disse Li.

“Parece que algumas das pesquisas mais importantes que precisam ser feitas no futuro serão nas áreas de geração de dados sintéticos e algoritmos e arquiteturas eficientes de dados”, concluiu.

O desafio é particularmente grave para a programação competitiva porque o domínio requer problemas com soluções corretas conhecidas que podem ser verificadas automaticamente. Ao contrário das tarefas de linguagem pure, onde a avaliação humana ou as métricas de proxy são suficientes, o código funciona ou não, tornando a geração de dados sintéticos consideravelmente mais difícil.

Li identificou um caminho potencial: modelos de treinamento não apenas para resolver problemas, mas para gerar problemas solucionáveis, permitindo uma forma de autojogo semelhante a técnicas que se mostraram bem-sucedidas em sistemas de IA de jogos. “Uma vez resolvida a geração de problemas sintéticos, o autojogo se torna uma direção muito interessante”, escreveu ele.


Uma aposta de US$ 65 milhões de que a IA de código aberto pode competir com a Huge Tech

A Nous Analysis conquistou uma posição distinta no cenário da IA: uma empresa comprometida com lançamentos de código aberto que competem com — e às vezes excedem — alternativas proprietárias.

A empresa levantou US$ 50 milhões em abril de 2025 em uma rodada liderada pela Paradigm, empresa de risco com foco em criptomoedas fundada pelo cofundador da Coinbase, Fred Ehrsam. O financiamento whole atingiu US$ 65 milhões, de acordo com alguns relatórios. O investimento reflectiu o interesse crescente em abordagens descentralizadas à formação em IA, uma área onde a Nous Analysis desenvolveu a sua Plataforma psique.

Os lançamentos anteriores incluem Hermes 4uma família de modelos que relatamos “superar o ChatGPT sem restrições de conteúdo” e DeepHermes-3, que a empresa descreveu como o primeiro “modelo de raciocínio ativado” – permitindo aos usuários ativar capacidades de pensamento estendidas sob demanda.

A empresa cultivou uma estética e uma comunidade distintas, gerando algum ceticismo sobre se o estilo pode ofuscar a substância. “Claro que vou acreditar em uma empresa de anime pfp. Pare de benchmarkmaxxing ffs,” escreveu um crítico no Xreferindo-se à marca estilo anime da Nous Analysis e à prática da indústria de otimização para desempenho de benchmark.

Outros levantaram questões técnicas. “Com base no benchmark, Nemotron é melhor”, observou um comentarista, referindo-se à família de modelos de linguagem da Nvidia. Outro perguntou se NousCoder-14B é “codificação focada em agente ou apenas codificação ‘one shot'” – uma distinção que é importante para o desenvolvimento prático de software program, onde a iteração com base no suggestions normalmente produz resultados melhores do que tentativas únicas.


O que os pesquisadores dizem que deve acontecer a seguir para que as ferramentas de codificação de IA continuem melhorando

O lançamento inclui várias orientações para trabalhos futuros que sugerem onde a pesquisa de codificação de IA pode estar caminhando.

O aprendizado por reforço multivoltas está no topo da lista. Atualmente, o modelo recebe apenas uma recompensa binária closing – aprovação ou reprovação – após gerar uma solução. Mas os problemas de programação competitiva normalmente incluem casos de teste públicos que fornecem suggestions intermediário: erros de compilação, resultados incorretos, violações de limites de tempo. Modelos de treinamento para incorporar esse suggestions em múltiplas tentativas poderiam melhorar significativamente o desempenho.

Controlar a duração da resposta também continua sendo um desafio. Os pesquisadores descobriram que as soluções incorretas tendem a ser mais longas do que as corretas, e os comprimentos das respostas saturam rapidamente as janelas de contexto disponíveis durante o treinamento – um padrão que várias modificações algorítmicas não conseguiram resolver.

Talvez de forma mais ambiciosa, Li propôs “geração de problemas e autojogo” – modelos de treinamento para resolver e criar problemas de programação. Isto resolveria diretamente o problema da escassez de dados, permitindo que os modelos gerassem os seus próprios currículos de formação.

“Os humanos são ótimos em gerar problemas interessantes e úteis para outros programadores competitivos, mas parece que ainda existe uma lacuna significativa nas capacidades de LLM na geração criativa de problemas”, escreveu Li.

O modelo é disponível agora no Hugging Face sob uma licença Apache 2.0. Para pesquisadores e desenvolvedores que desejam desenvolver o trabalho, a Nous Analysis publicou o relatório completo Pilha de treinamento Atropos ao lado dele.

O que Li levou dois anos de dedicação adolescente para alcançar – passar de um novato de nível 1.600 a um competidor com classificação 2.100 no Codeforces – uma IA replicada em 96 horas. Ele precisava de 1.000 problemas. O modelo precisava de 24.000. Mas em breve, esses sistemas poderão aprender a escrever seus próprios problemas, aprender sozinhos e deixar totalmente para trás os benchmarks humanos.

A questão não é mais se as máquinas podem aprender a codificar. É se em breve eles serão melhores professores do que nunca.

avots