O estande do Alibaba na Conferência Mundial de Inteligência Synthetic no Shanghai World Expo Exhibition Middle em Xangai, China, em 5 de julho de 2024.
Nurfoto | Nurfoto | Imagens Getty
Embora os mercados dos EUA tenham se concentrado no impacto das ferramentas antrópicas e altruístas em software program e serviços financeiros, os gigantes tecnológicos da China lançaram esta semana modelos de IA que mostraram avanços na robótica e na geração de vídeo.
Alibabacriador do TikTok ByteDance e plataforma de vídeos curtos Kuaishoulançaram novos modelos de IA que destacam como as empresas chinesas estão acompanhando as dos EUA
Isso acontece depois que o chefe do Google DeepMind, Demis Hassabis, disse à CNBC que os modelos chineses de IA estão apenas “meses” atrás dos rivais ocidentais.
Esses modelos da China competem diretamente com modelos de geração de vídeo, como o Sora da OpenAI, bem como com modelos de robótica da Nvidia e Google.
Aqui está um resumo dos modelos.
RynnBrain do Alibaba
Academia DAMO do Alibaba revelou RynnBrain esta semana, um modelo de IA projetado para ajudar os robôs a compreender o mundo físico ao seu redor e identificar objetos.
Em um vídeo de demonstração, o Alibaba mostrou um robô com pinças nas mãos que parecia ser capaz de contar laranjas, pegá-las e colocá-las em uma cesta. Também foi mostrado tirando leite da geladeira.
Os modelos requerem treinamento extensivo para que possam identificar objetos do cotidiano com os quais interagir, o que significa que tarefas simples como colher frutas podem ser desafiadoras na robótica.
RynnBrain agora coloca o Alibaba em competição com empresas como Nvidia e Google que estão desenvolvendo seus próprios modelos de IA para robôs.
“Uma de suas principais inovações é a consciência integrada do tempo e do espaço”, disse Adina Yakefu, pesquisadora da Hugging Face, à CNBC.
“Em vez de simplesmente reagir a entradas imediatas, o robô pode lembrar quando e onde os eventos ocorreram, acompanhar o progresso da tarefa e continuar em várias etapas. Isso o torna mais confiável e coerente em ambientes complexos do mundo real.”
Yakefu acrescentou que a “ambição mais ampla” do Alibaba era “estabelecer uma camada de inteligência fundamental para sistemas incorporados”.
Seedance 2.0 da ByteDance
Seedance 2.0 é um modelo de IA de geração de vídeo capaz de gerar um vídeo realista a partir de apenas um prompt de texto de um usuário. Mas os prompts também podem conter outros vídeos e imagens.
Os vídeos criados com Seedance 2.0 e revisados pela CNBC parecem mostrar imagens e vídeos bastante realistas que foram totalmente criados com IA.
Billy Boman, que mora em Estocolmo, na Suécia, e dirige uma agência de publicidade criativa que produz conteúdo gerado por IA, usou o Seedance 2.0.
Ele disse que a geração de vídeos com IA fez avanços significativos nos últimos dois anos, com rápidas melhorias em todo o setor.

“Em 2023… era difícil fazer alguém correr ou andar. [limited to] clipes muito curtos, tudo muito lento, texturas ruins, sem textura de pele, faltando detalhes. Agora o script mudou. Agora posso fazer qualquer coisa. Os avanços tecnológicos foram nada menos que excepcionais”, disse Boman à CNBC em entrevista.
Yakefu, da Hugging Face, acrescentou que o modelo Seedance 2.0 mostrou progresso em relação às gerações anteriores em “controlabilidade, velocidade e eficiência de produção”.
“Seedance 2.0 é um dos modelos de geração de vídeo mais completos que testei até agora. Ele realmente me surpreendeu ao fornecer resultados satisfatórios na primeira tentativa, mesmo com um simples aviso. O visual, a música e a cinematografia se unem de uma forma que parece mais polida do que experimental”, disse Yakefu.
No entanto, embora os usuários tenham elogiado a tecnologia, o Seedance enfrentou problemas. Mídia chinesa local relatado que o Seedance suspendeu um recurso que permitia à IA gerar a voz de uma pessoa com base em uma imagem que ela carregou. Isso aconteceu depois que um blogueiro na China levantou preocupações sobre a geração de voz ocorrer sem consentimento.
A ByteDance não estava imediatamente disponível para comentar quando contatada pela CNBC.
Kling de Kuaishou 3.0
Lançado na semana passada, o Kuaishou’s Kling 3.0 é outro modelo de geração de vídeo que rivaliza com o ByteDance.
Kling 3.0 “apresenta grandes atualizações em consistência, saída fotorrealista, duração estendida de vídeo de até 15s e geração de áudio nativo em vários idiomas, dialetos e sotaques.
O modelo está disponível apenas para assinantes pagantes, mas estará disponível ao público em breve, disse Kuaishou.
O sucesso da Kuaishou com os seus modelos Kling tem sido um fator chave por trás do aumento de mais de 50% no preço das ações no último ano.
Kuaishou compartilha o acumulado do ano
Outros lançamentos importantes de modelos de IA
Zhipu AI – que é comercializado como Knowledge Atlas Technology em Hong Kong – viu suas ações subirem na quinta-feira depois de lançar o GLM-5, um modelo de código aberto em grande linguagem com recursos de codificação aprimorados e tarefas de agente de longa duração.
A empresa disse que o modelo aborda Claude Opus 4.5 da Antrópico em benchmarks de codificação, superando o Gemini 3 Professional do Google em alguns testes. A CNBC não conseguiu verificar essas afirmações.
As ações da MiniMax também saltaram na quinta-feira depois lançou seu M2.5 atualizado modelo de código aberto com ferramentas aprimoradas de agente de IA. “Agentes” ou “IA agente” referem-se a ferramentas de IA projetadas para automatizar tarefas.
– Anniek Bao e Dylan Butts da CNBC contribuíram para este relatório.









