Início Tecnologia Como a nova maneira do DeepSeek de treinar modelos avançados de IA...

Como a nova maneira do DeepSeek de treinar modelos avançados de IA pode atrapalhar tudo – de novo

31
0

Flávio Coelho/ Momento by way of Getty

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • DeepSeek estreou hiperconexões com restrições múltiplas, ou euHCs.
  • Eles oferecem uma maneira de dimensionar LLMs sem incorrer em custos elevados.
  • A empresa adiou o lançamento do seu modelo R2 para meados de 2025.

Pouco antes do início do novo ano, o mundo da IA ​​foi apresentado a um novo método potencialmente revolucionário para treinar modelos avançados.

Uma equipe de pesquisadores da empresa chinesa de IA DeepSeek divulgou um artigo na quarta-feira descrevendo o que chamou de hiperconexões restritas ao coletor, ou euHC, para abreviar, que pode fornecer um caminho para os engenheiros construírem e dimensionarem grandes modelos de linguagem sem os enormes custos computacionais que normalmente são necessários.

Além disso: o novo modelo do DeepSeek é o mais recente golpe para a IA proprietária?

DeepSeek saltou para os holofotes culturais há um ano com o lançamento do R1, um modelo que rivalizava com as capacidades do o1 da OpenAI e que teria sido treinado por uma fração do custo. O lançamento foi um choque para os desenvolvedores de tecnologia baseados nos EUA, porque mostrou que o acesso a enormes reservas de capital e recursos computacionais não period necessariamente necessário para treinar modelos de IA de ponta.

O novo euO papel HC poderia vir a ser a estrutura tecnológica para o próximo modelo da DeepSeek, R2, que period esperado em meados do ano passado, mas foi adiado, supostamente devido ao acesso limitado da China a chips avançados de IA e às preocupações do CEO da empresa, Liang Wenfeng, sobre o desempenho do modelo.

O desafio

Publicado no web site do servidor de pré-impressão arXiv, um recurso on-line in style onde os pesquisadores podem compartilhar resultados de estudos que ainda não foram revisados ​​por pares, o novo recurso do DeepSeek papel é uma tentativa de colmatar uma lacuna técnica complexa e importante que dificulta a escalabilidade dos modelos de IA.

Além disso: o último lançamento de código aberto da Mistral aposta em modelos menores em vez de modelos grandes – aqui está o porquê

Os LLMs são construídos sobre redes neurais, que por sua vez são projetadas para conservar sinais em muitas camadas. O problema é que à medida que mais camadas são adicionadas, mais o sinal pode ficar atenuado ou degradado e maior o risco de se transformar em ruído. É um pouco como jogar um jogo de telefone: quanto mais pessoas são adicionadas, maiores são as possibilities de a mensagem authentic ficar confusa e alterada.

O principal desafio, então, é construir modelos que possam conservar os seus sinais através do maior número possível de camadas – ou “otimizar melhor o compromisso entre plasticidade e estabilidade”, como descrevem os investigadores da DeepSeek no seu novo artigo.

A solução

Os autores do novo artigo – que inclui o CEO da DeepSeek, Liang Wenfeng – basearam-se hiperconexõesou HCs, uma estrutura introduzida em 2024 por pesquisadores da ByteDance, que diversifica o número de canais através dos quais as camadas de uma rede neural podem compartilhar informações entre si. Os HCs apresentam o risco, entretanto, de que o sinal authentic se perca na tradução. (Novamente, pense em cada vez mais pessoas sendo adicionadas a um jogo de telefone.) Eles também acarretam altos custos de memória, tornando-os difíceis de implementar em grande escala.

Além disso: DeepSeek pode estar prestes a abalar o mundo da IA ​​novamente – o que sabemos

O euA arquitetura HC visa resolver isso restringindo a hiperconectividade dentro de um modelo, preservando assim a complexidade informacional possibilitada pelos HCs e evitando o problema de memória. Isto, por sua vez, poderia permitir o treinamento de modelos altamente complexos de uma maneira que pudesse ser prática e escalável mesmo para desenvolvedores menores e com mais falta de dinheiro.

Por que isso importa

Assim como aconteceu com o lançamento do R1 em janeiro de 2025, a estreia do euA estrutura HC poderia sugerir uma nova direção para a evolução da IA.

Até agora, na corrida à IA, a sabedoria predominante tem sido principalmente a de que apenas as maiores e mais abastadas empresas podem dar-se ao luxo de construir modelos de fronteira. Mas a DeepSeek tem mostrado continuamente que soluções alternativas são possíveis e que avanços só podem ser alcançados através de engenharia inteligente.

O fato de a empresa ter publicado sua nova pesquisa sobre seus euO método HC significa que ele pode ser amplamente adotado por desenvolvedores menores, especialmente se acabar sendo usado pelo tão aguardado modelo R2 (cuja knowledge de lançamento não foi anunciada oficialmente).



avots