O CEO da Nvidia, Jensen Huang, disse no ano passado que estamos entrando na period da IA física. Embora a empresa proceed a oferecer LLMs para casos de uso de software program, a Nvidia está cada vez mais se posicionando como fornecedora de modelos de IA para sistemas totalmente alimentados por IA – incluindo IA de agente no mundo físico.
Na CES 2026, a Nvidia anunciou uma série de novos modelos projetados para levar os agentes de IA além das interfaces de chat e para ambientes físicos.
Nvidia lançada Cosmos Razão 2a versão mais recente de seu modelo de linguagem de visão projetado para raciocínio incorporado. Cosmos Razão 1, lançado no ano passadointroduziu uma ontologia bidimensional para o raciocínio incorporado e atualmente lidera o raciocínio físico de Hugging Face para o placar de vídeo.
O Cosmos Cause 2 baseia-se na mesma ontologia, ao mesmo tempo que dá às empresas mais flexibilidade para personalizar aplicações e permite que os agentes físicos planeiem as suas próximas ações, semelhante à forma como os agentes baseados em software program raciocinam através de fluxos de trabalho digitais.
A Nvidia também lançou uma nova versão do Cosmos Switch, um modelo que permite aos desenvolvedores gerar simulações de treinamento para robôs.
Outros modelos de linguagem de visão, como o PaliGemma do Google e o Pixtral Giant da Mistral, podem processar entradas visuais, mas nem todos os VLMs disponíveis comercialmente suportam o raciocínio.
“A robótica está num ponto de inflexão. Estamos a passar de robôs especializados limitados a tarefas únicas para sistemas especializados generalistas”, disse Kari Briski, vice-presidente da Nvidia para software program generativo de IA, num briefing com jornalistas. Ela estava se referindo a robôs que combinam amplo conhecimento básico com profundas habilidades específicas para tarefas. “Esses novos robôs combinam amplo conhecimento elementary com profunda proficiência e tarefas complexas.”
Ela acrescentou que o Cosmos Cause 2 “aumenta as capacidades de raciocínio que os robôs precisam para navegar no mundo físico imprevisível”.
Migrando para agentes físicos
Briski observou que o roteiro da Nvidia segue “o mesmo padrão de ativos em todos os nossos modelos abertos”.
“Ao construir agentes especializados de IA, uma força de trabalho digital ou a incorporação física da IA em robôs e veículos autônomos, é necessário mais do que apenas o modelo”, disse Briski. “Primeiro, a IA precisa de recursos de computação para treinar e simular o mundo ao seu redor. Os dados são o combustível para a IA aprender e melhorar, e contribuímos para a maior coleção do mundo de conjuntos de dados abertos e diversificados, indo além de apenas abrir os pesos dos modelos. As bibliotecas abertas e os scripts de treinamento fornecem aos desenvolvedores as ferramentas para criar IA especificamente para seus aplicativos, e publicamos projetos e exemplos para ajudar a implantar a IA como sistemas de modelos.”
A empresa agora tem modelos abertos especificamente para IA física no Cosmos, robótica, com o modelo de visão-linguagem-ação (VLA) de raciocínio aberto Gr00t e seus modelos Nemotron para IA agente.
A Nvidia defende que modelos abertos em diferentes ramos da IA formam um ecossistema empresarial compartilhado que fornece dados, treinamento e raciocínio aos agentes nos mundos digital e físico.
Adições à família Nemotron
Briski disse que a Nvidia planeja continuar expandindo seus modelos abertos, incluindo sua família Nemotron, além do raciocínio para incluir um novo modelo RAG e embeddings para tornar as informações mais prontamente disponíveis aos agentes. A empresa lançou o Nemotron 3, a versão mais recente de seus modelos de raciocínio agente, em dezembro.
A Nvidia anunciou três novas adições à família Nemotron: Nemotron Speech, Nemotron RAG e Nemotron Security.
Em uma postagem no weblog, a Nvidia disse que o Nemotron Speech oferece “reconhecimento de fala de baixa latência em tempo actual para legendas ao vivo e aplicativos de IA de fala” e é 10 vezes mais rápido do que outros modelos de fala.
Nemotron RAG é tecnicamente composto por dois modelos: um modelo de incorporação e um modelo de reclassificação, ambos os quais podem compreender imagens para fornecer mais insights multimodais que os agentes de dados irão aproveitar.
“O Nemotron RAG está no topo do que chamamos de MMTab, ou Huge Multilingual Textual content Embedding Benchmark, com forte desempenho multilíngue e usando menos memória de poder de computação, portanto, eles são uma boa opção para sistemas que devem lidar com muitas solicitações muito rapidamente e com baixo atraso”, disse Briski.
O Nemotron Security detecta dados confidenciais para que os agentes de IA não liberem acidentalmente dados de identificação pessoal.












