Uma equipe de pesquisadores liderada por Nvidia lançou DreamDojoum novo sistema de IA projetado para ensinar robôs a interagir com o mundo físico, assistindo a dezenas de milhares de horas de vídeo humano – um desenvolvimento que poderia reduzir significativamente o tempo e o custo necessários para treinar a próxima geração de máquinas humanóides.
O pesquisarpublicado este mês e envolvendo colaboradores de Universidade da Califórnia em Berkeley, Stanfordo Universidade do Texas em Austine várias outras instituições, apresentam o que a equipe chama de “o primeiro modelo de mundo robótico desse tipo que demonstra forte generalização para diversos objetos e ambientes após o pós-treinamento”.
No centro de DreamDojo é o que os pesquisadores descrevem como “um conjunto de dados de vídeo em grande escala” compreendendo “44 mil horas de diversos vídeos egocêntricos humanos, o maior conjunto de dados até o momento para pré-treinamento de modelos mundiais”. O conjunto de dados, chamado DreamDojo-HVé um salto dramático em escala – “duração 15 vezes maior, 96 vezes mais habilidades e 2.000 vezes mais cenas do que o maior conjunto de dados anterior para treinamento de modelos mundiais”, de acordo com a documentação do projeto.
Por dentro do sistema de treinamento em duas fases que ensina robôs a ver como humanos
O sistema opera em duas fases distintas. Primeiro, DreamDojo “adquire conhecimento físico abrangente a partir de conjuntos de dados humanos em grande escala por meio de pré-treinamento com ações latentes.” Em seguida, ele passa por “pós-treinamento na personificação do alvo com ações contínuas do robô” – essencialmente aprendendo física geral observando humanos e, em seguida, ajustando esse conhecimento para {hardware} específico do robô.
Para empresas que consideram robôs humanóides, esta abordagem aborda um gargalo persistente. Ensinar um robô a manipular objetos em ambientes não estruturados tradicionalmente requer enormes quantidades de dados de demonstração específicos do robô – uma coleta cara e demorada. DreamDojo contorna esse problema aproveitando o vídeo humano existente, permitindo que os robôs aprendam com a observação antes mesmo de tocar um objeto físico.
Um dos avanços técnicos é a velocidade. Através de um processo de destilação, os pesquisadores alcançaram “interações em tempo actual a ten FPS por mais de 1 minuto” – uma capacidade que permite aplicações práticas como teleoperação ao vivo e planejamento em tempo actual. A equipe demonstrou o sistema funcionando em múltiplas plataformas de robôs, incluindo o GR-1, G1, AgiBote INHAME robôs humanóides, mostrando o que eles chamam de “lançamentos realistas condicionados à ação” em “uma ampla gama de ambientes e interações de objetos”.
Por que a Nvidia está apostando alto na robótica à medida que os gastos com infraestrutura de IA aumentam
O lançamento chega em um momento essential para as ambições robóticas da Nvidia – e para a indústria de IA em geral. No Fórum Econômico Mundial Em Davos, no mês passado, o CEO Jensen Huang declarou que a robótica de IA representa uma oportunidade “única numa geração”, especialmente para regiões com fortes bases de produção. De acordo com DigitimesHuang também afirmou que a próxima década será “um período crítico de desenvolvimento acelerado da tecnologia robótica”.
Os riscos financeiros são enormes. Huang disse ao “Halftime Report” da CNBC em 6 de fevereiro que as despesas de capital da indústria de tecnologia – potencialmente atingindo US$ 660 bilhões este ano dos principais hiperscaladores – são “justificado, apropriado e sustentável.” Ele caracterizou o momento atual como “o maior desenvolvimento de infraestrutura na história da humanidade”, com empresas como Meta, Amazon, Google e Microsoft aumentando dramaticamente seus gastos com IA.
Esse impulso infra-estrutural já está a remodelar o panorama da robótica. Startups de robótica bateram recorde US$ 26,5 bilhões em 2025segundo dados do Dealroom. Gigantes industriais europeus, incluindo Siemens, Mercedes-Benze Volvo anunciaram parcerias robóticas no ano passado, enquanto o CEO da Tesla, Elon Musk, afirmou que 80 por cento do valor futuro de sua empresa virá de seus robôs humanóides Optimus.
Como o DreamDojo poderia transformar a implantação e os testes de robôs empresariais
Para os decisores técnicos que avaliam robôs humanóides, o valor mais imediato do DreamDojo pode residir nas suas capacidades de simulação. Os pesquisadores destacam aplicações downstream, incluindo “avaliação confiável de políticas sem implantação no mundo actual e planejamento baseado em modelo para melhoria do tempo de teste” – capacidades que poderiam permitir que as empresas simulassem extensivamente o comportamento do robô antes de se comprometerem com testes físicos dispendiosos.
Isto é importante porque a lacuna entre as demonstrações laboratoriais e o chão de fábrica continua significativa. Um robô que funciona perfeitamente em condições controladas muitas vezes enfrenta variações imprevisíveis dos ambientes do mundo actual – iluminação diferente, objetos desconhecidos, obstáculos inesperados. Ao treinar em 44.000 horas de vídeos humanos diversos, abrangendo milhares de cenas e quase 100 habilidades distintas, o DreamDojo visa construir o tipo de intuição física geral que torna os robôs adaptáveis, em vez de frágeis.
A equipe de pesquisa, liderada por Linxi “Jim” Fan, Joel Jang e Yuke Zhu, com Shenyuan Gao e William Liang como co-autores, indicou que o código será divulgado publicamente, embora um cronograma não tenha sido especificado.
O panorama geral: a transformação da Nvidia de gigante dos jogos em potência da robótica
Se DreamDojo se traduz em produtos robóticos comerciais ainda está para ser visto. Mas a pesquisa sinaliza para onde estão indo as ambições da Nvidia, à medida que a empresa se posiciona cada vez mais além de suas raízes nos jogos. Como Kyle Barr observado no Gizmodo no início deste mês, a Nvidia agora vê “qualquer coisa relacionada a jogos e ao ‘computador pessoal'” como “diferentes nas planilhas trimestrais da Nvidia”.
A mudança reflecte uma aposta calculada: que o futuro da computação é físico, não apenas digital. Nvidia já investiu US$ 10 bilhões em Antrópico e sinalizou planos para investir pesadamente na próxima rodada de financiamento da OpenAI. DreamDojo sugere que a empresa vê os robôs humanóides como a próxima fronteira onde sua experiência em IA e domínio de chips podem convergir.
Por enquanto, as 44.000 horas de vídeo humano no coração do DreamDojo representam algo mais basic do que uma referência técnica. Eles representam uma teoria – que os robôs podem aprender a navegar em nosso mundo observando-nos viver nele. Acontece que as máquinas estão tomando notas.













