OpenAI quinta-feira foi lançado GPT-5.3-Codex-Sparkum modelo de codificação simplificado projetado para tempos de resposta quase instantâneos, marcando a primeira parceria de inferência significativa da empresa fora de sua infraestrutura tradicional dominada pela Nvidia. O modelo roda em {hardware} de Cerebras Sistemasfabricante de chips com sede em Sunnyvale cujos processadores em escala wafer são especializados em cargas de trabalho de IA de baixa latência.
A parceria chega em um momento essential para a OpenAI. A empresa se encontra navegando em um relacionamento desgastado com o fornecedor de chips de longa knowledge Nvidia, críticas crescentes sobre sua decisão de introduzir anúncios no ChatGPT, um recém-anunciado Contrato do Pentágonoe convulsão organizacional interna que viu um equipe focada em segurança foi dissolvida e pelo menos um pesquisador renunciar em protesto.
“As GPUs permanecem fundamentais em nossos pipelines de treinamento e inferência e fornecem os tokens mais econômicos para uso amplo”, disse um porta-voz da OpenAI ao VentureBeat. “A Cerebras complementa essa base, destacando-se em fluxos de trabalho que exigem latência extremamente baixa, estreitando o ciclo de ponta a ponta para que casos de uso como codificação em tempo actual no Codex pareçam mais responsivos à medida que você itera.”
O enquadramento cuidadoso – enfatizando que as GPUs “permanecem fundamentais” enquanto posiciona a Cerebras como um “complemento” – ressalta o delicado equilíbrio que a OpenAI deve atingir ao diversificar seus fornecedores de chips sem alienar Nvidiaa força dominante em aceleradores de IA.
Os ganhos de velocidade vêm com compensações de capacidade que a OpenAI diz que os desenvolvedores aceitarão
Codex-Spark representa o primeiro modelo da OpenAI desenvolvido especificamente para colaboração de codificação em tempo actual. A empresa afirma que o modelo oferece velocidades de geração 15 vezes mais rápidas que seu antecessor, embora tenha se recusado a fornecer métricas de latência específicas, como tempo até o primeiro token ou números de tokens por segundo.
“Não podemos compartilhar números de latência específicos, no entanto, o Codex-Spark é otimizado para parecer quase instantâneo – oferecendo velocidades de geração 15x mais rápidas enquanto permanece altamente capaz para tarefas de codificação do mundo actual”, disse o porta-voz da OpenAI.
Os ganhos de velocidade vêm com compensações de capacidade reconhecidas. Sobre SWE-Bench Pro e Terminal-bancada 2.0 — dois benchmarks do setor que avaliam a capacidade dos sistemas de IA de executar tarefas complexas de engenharia de software program de forma autônoma — o Codex-Spark tem desempenho inferior ao complete Modelo GPT-5.3-Codex. A OpenAI posiciona isso como uma troca aceitável: os desenvolvedores obtêm respostas rápidas o suficiente para manter o fluxo criativo, mesmo que o modelo subjacente não consiga enfrentar os mais sofisticados desafios de programação em várias etapas.
O modelo é iniciado com uma janela de contexto de 128.000 tokens e suporta apenas texto – sem imagem ou entradas multimodais. OpenAI disponibilizou-o como uma prévia da pesquisa para ChatGPT Pro assinantes por meio do aplicativo Codex, interface de linha de comando e extensão do Visible Studio Code. Um pequeno grupo de parceiros empresariais receberá acesso à API para avaliar as possibilidades de integração.
“Estamos fazendo Codex-Spark disponível na API para um pequeno conjunto de parceiros de design entender como os desenvolvedores desejam integrar o Codex-Spark em seus produtos”, explicou o porta-voz. “Expandiremos o acesso nas próximas semanas à medida que continuamos ajustando nossa integração sob cargas de trabalho reais.”
O {hardware} Cerebras elimina gargalos que afetam os clusters de GPU tradicionais
A arquitetura técnica por trás Codex-Spark conta uma história sobre economia de inferência que é cada vez mais importante à medida que as empresas de IA dimensionam produtos voltados para o consumidor. Cerebrás Motor de escala de wafer 3 – um único chip aproximadamente do tamanho de um prato contendo 4 trilhões de transistores – elimina grande parte da sobrecarga de comunicação que ocorre quando as cargas de trabalho de IA se espalham por clusters de processadores menores.
Para treinar modelos massivos, essa abordagem distribuída continua necessária e as GPUs da Nvidia são excelentes nisso. Mas para inferência – o processo de geração de respostas às consultas dos usuários – a Cerebras argumenta que sua arquitetura pode fornecer resultados com latência drasticamente menor. Sean Lie, CTO e cofundador da Cerebras, enquadrou a parceria como uma oportunidade para remodelar a forma como os desenvolvedores interagem com os sistemas de IA.
“O que mais nos entusiasma no GPT-5.3-Codex-Spark é a parceria com a OpenAI e a comunidade de desenvolvedores para descobrir o que a inferência rápida torna possível – novos padrões de interação, novos casos de uso e uma experiência de modelo fundamentalmente diferente”, disse Lie em um comunicado. “Esta prévia é apenas o começo.”
A equipe de infraestrutura da OpenAI não limitou seu trabalho de otimização ao {hardware} da Cerebras. A empresa anunciou melhorias de latência em toda a sua pilha de inferência que beneficiam todos os modelos Codex, independentemente do {hardware} subjacente, incluindo Conexões WebSocket e otimizações dentro do API de respostas. Os resultados: redução de 80% na sobrecarga por viagem de ida e volta cliente-servidor, redução de 30% na sobrecarga por token e redução de 50% no tempo até o primeiro token.
Um meganegócio de US$ 100 bilhões da Nvidia desmoronou silenciosamente nos bastidores
A parceria Cerebras assume um significado adicional dada a relação cada vez mais complicada entre OpenAI e Nvidia. No outono passado, quando a OpenAI anunciou seu Portal Estelar iniciativa de infraestrutura, a Nvidia se comprometeu publicamente com investindo US$ 100 bilhões para apoiar o OpenAI à medida que construía a infraestrutura de IA. O anúncio pareceu consolidar uma aliança estratégica entre a empresa de IA mais valiosa do mundo e o seu fornecedor dominante de chips.
Cinco meses depois, esse meganegócio está efetivamente estagnado, de acordo com múltiplo relatórios. O CEO da Nvidia, Jensen Huang, negou publicamente as tensões, dizendo aos repórteres no last de janeiro que existe “sem drama” e que a Nvidia continua comprometida em participar da atual rodada de financiamento da OpenAI. Mas o relacionamento esfriou consideravelmente, com atritos decorrentes de múltiplas fontes.
A OpenAI buscou agressivamente parcerias com fornecedores de chips alternativos, incluindo o Cérebros acordo e acordos separados com AMD e Broadcom. Do ponto de vista da Nvidia, a OpenAI pode estar usando sua influência para transformar em commodity o próprio {hardware} que tornou possíveis seus avanços em IA. Do ponto de vista da OpenAI, reduzir a dependência de um único fornecedor representa uma estratégia de negócios prudente.
“Continuaremos trabalhando com o ecossistema na avaliação contínua dos chips com melhor desempenho de preço em todos os casos de uso”, disse o porta-voz da OpenAI ao VentureBeat. “As GPUs continuam sendo nossa prioridade para casos de uso sensíveis ao custo e que priorizam o rendimento em pesquisa e inferência.” A declaração parece um esforço cuidadoso para evitar antagonizar a Nvidia e ao mesmo tempo preservar a flexibilidade – e reflete uma realidade mais ampla de que o treinamento de modelos de IA de ponta ainda requer exatamente o tipo de processamento paralelo massivo que as GPUs da Nvidia fornecem.
Equipes de segurança dissolvidas e saídas de pesquisadores levantam questões sobre as prioridades da OpenAI
O Codex-Spark O lançamento ocorre no momento em que a OpenAI enfrenta uma série de desafios internos que intensificaram o escrutínio da direção e dos valores da empresa. No início desta semana, surgiram relatos de que OpenAI dissolveu sua equipe de alinhamento de missãoum grupo criado em setembro de 2024 para promover o objetivo declarado da empresa de garantir que a inteligência synthetic geral beneficie a humanidade. Os sete membros da equipe foram transferidos para outras funções, com o líder Joshua Achiam recebendo um novo título como “futurista-chefe” da OpenAI.
OpenAI anteriormente dissolveu outro grupo focado em segurançaa equipa de superalinhamento, em 2024. Essa equipa concentrou-se nos riscos existenciais de longo prazo da IA. O padrão de dissolução de equipas orientadas para a segurança atraiu críticas de investigadores que argumentam que as pressões comerciais da OpenAI estão a sobrecarregar a sua missão authentic sem fins lucrativos.
A empresa também enfrenta as consequências de sua decisão de introduzir anúncios no ChatGPT. Pesquisador Zoë Hitzig renunciou esta semana sobre o que ela descreveu como a “ladeira escorregadia” da IA apoiada por anúncios, alertando em um ensaio do New York Occasions que o arquivo de conversas íntimas de usuários do ChatGPT cria oportunidades sem precedentes de manipulação. A Antthropic aproveitou a polêmica com um Campanha publicitária do Super Bowl apresentando o slogan: “Os anúncios estão chegando à IA. Mas não a Claude.”
Separadamente, a empresa concordou em fornecer ChatGPT ao Pentágono através Genai.milum novo programa do Departamento de Defesa que exige que a OpenAI permita “todos os usos legais” sem restrições impostas pela empresa – termos que a Anthropic supostamente rejeitou. E surgiram relatos de que Ryan Beiermeister, vice-presidente de política de produtos da OpenAI que expressou preocupações sobre um recurso planejado de conteúdo explícito, foi demitido em janeiro após uma alegação de discriminação que ela nega.
OpenAI prevê assistentes de codificação de IA que fazem malabarismos com edições rápidas e tarefas autônomas complexas
Apesar da turbulência circundante, o roteiro técnico da OpenAI para o Codex sugere planos ambiciosos. A empresa prevê um assistente de codificação que combina perfeitamente edição interativa rápida com tarefas autônomas de execução mais longa – uma IA que lida com soluções rápidas enquanto orquestra simultaneamente vários agentes que trabalham em problemas mais complexos em segundo plano.
“Com o tempo, os modos se misturarão – o Codex pode mantê-lo em um ciclo interativo estreito enquanto delega trabalhos de longa duração a subagentes em segundo plano ou distribui tarefas para muitos modelos em paralelo quando você deseja amplitude e velocidade, para que você não exact escolher um único modo antecipadamente”, disse o porta-voz da OpenAI ao VentureBeat.
Esta visão exigiria não apenas uma inferência mais rápida, mas também uma decomposição e coordenação sofisticadas de tarefas entre modelos de tamanhos e capacidades variados. Codex-Spark estabelece a base de baixa latência para a parte interativa dessa experiência; versões futuras precisarão fornecer o raciocínio autônomo e a coordenação multiagente que tornariam possível a visão completa.
Por agora, Codex-Spark opera sob limites de taxas separados de outros modelos OpenAI, refletindo a capacidade limitada da infraestrutura da Cerebras durante a prévia da pesquisa. “Como funciona em {hardware} especializado de baixa latência, o uso é regido por um limite de taxa separado que pode ser ajustado com base na demanda durante a visualização da pesquisa”, observou o porta-voz. Os limites são projetados para serem “generosos”, com o OpenAI monitorando os padrões de uso enquanto determina como escalar.
O verdadeiro teste é se respostas mais rápidas se traduzem em software program melhor
O Anúncio do Codex-Spark chega em meio a intensa competição por ferramentas de desenvolvedor baseadas em IA. O produto Claude Cowork da Anthropic desencadeou um liquidação em ações de software tradicionais na semana passada, enquanto os investidores consideravam se os assistentes de IA poderiam substituir os aplicativos empresariais convencionais. Microsoft, Googlee Amazônia continuam investindo pesadamente em recursos de codificação de IA integrados às suas respectivas plataformas em nuvem.
O aplicativo Codex da OpenAI demonstrou rápida adoção desde o lançamento há dez dias, com mais de um milhão de downloads e usuários ativos semanais crescendo 60% semana após semana. Mais de 325.000 desenvolvedores agora usam ativamente o Codex em níveis gratuitos e pagos. Mas a questão elementary que a OpenAI enfrenta – e a indústria mais ampla da IA - é se as melhorias de velocidade como as prometidas pelo Codex-Spark traduzir-se em ganhos significativos de produtividade ou simplesmente criar experiências mais agradáveis sem alterar os resultados.
As primeiras evidências das ferramentas de codificação de IA sugerem que respostas mais rápidas incentivam uma experimentação mais iterativa. Se essa experimentação produz software program melhor permanece controverso entre pesquisadores e profissionais. O que parece claro é que a OpenAI vê a latência de inferência como uma fronteira competitiva que vale um investimento substancial, mesmo que esse investimento a leve além da sua parceria tradicional com a Nvidia para um território não testado com fornecedores de chips alternativos.
O acordo da Cerebras é uma aposta calculada de que {hardware} especializado pode desbloquear casos de uso que as GPUs de uso geral não podem atender de maneira econômica. Para uma empresa que luta simultaneamente contra concorrentes, gere relações tensas com fornecedores e resiste a divergências internas sobre a sua direção comercial, é também um lembrete de que, na corrida da IA, ficar parado não é uma opção. A OpenAI construiu sua reputação agindo rapidamente e quebrando convenções. Agora precisa provar que pode se mover ainda mais rápido – sem se quebrar.













