Início Tecnologia Esses novos modelos de transcrição de IA são desenvolvidos para velocidade e...

Esses novos modelos de transcrição de IA são desenvolvidos para velocidade e privacidade

9
0

Às vezes você quer transcrever algo, mas não quer que fique na web para qualquer hacker ver. Talvez seja uma conversa com seu médico ou advogado. Talvez você seja jornalista e esta seja uma entrevista delicada. Privacidade e controle são importantes.

Esse desejo de privacidade é um dos motivos pelos quais o desenvolvedor francês Mistral AI construiu seus modelos de transcrição mais recentes para serem pequenos o suficiente para rodar em dispositivos. Eles podem ser executados no seu telefone, laptop computer ou na nuvem.

Voxtral Mini Transcrição 2um dos novos modelos anunciados na quarta-feira, é “tremendous, tremendous pequeno”, disse-me Pierre Inventory, vice-presidente de operações científicas da Mistral. Outro novo modelo, o Voxtral Realtime, pode fazer a mesma coisa, mas ao vivo, como legendas ocultas.

Atlas de IA

A privacidade não é a única razão pela qual a empresa quis construir pequenas modelos de código aberto. Ao serem executados diretamente no dispositivo que você está usando, esses modelos podem funcionar mais rapidamente. Chega de esperar que os arquivos encontrem o caminho pela Web até um information middle e voltem.

“O que você quer é que a transcrição aconteça tremendous, tremendous perto de você”, disse Inventory. “E o mais próximo que podemos encontrar de você é qualquer dispositivo de ponta, como um laptop computer, um telefone, um wearable como um smartwatch, por exemplo.”

A baixa latência (leia-se: alta velocidade) é especialmente importante para transcrição em tempo actual. O modelo Voxtral Realtime pode gerar com latência inferior a 200 milissegundos, disse Inventory. Ele pode transcrever as palavras de um locutor tão rapidamente quanto você consegue lê-las. Chega de esperar dois ou três segundos para que as legendas ocultas sejam atualizadas.

Assista isto: Falta de chips impactando iPhones, investimento paralisado em OpenAI, alegações de censura de TikTok | Tecnologia hoje

O modelo Voxtral Realtime está disponível através da API da Mistral e no rosto abraçadojuntamente com uma demonstração onde você pode experimentar.

Em alguns testes breves, descobri que ele foi gerado rapidamente (embora não tão rápido quanto você esperaria se estivesse no dispositivo) e consegui capturar o que eu disse com precisão em inglês com um pouco de espanhol misturado. É capaz de lidar com 13 idiomas no momento, de acordo com Mistral.

Voxtral Mini Transcribe 2 também está disponível através da API da empresa, ou você pode brincar com ele em Estúdio de IA da Mistral. Usei o modelo para transcrever minha entrevista com Inventory.

Achei-o rápido e bastante confiável, embora tivesse dificuldades com nomes próprios como Mistral AI (que chamava de Mr. Lay Eye) e Voxtral (VoxTroll). Sim, o modelo de IA errou no nome. Mas Inventory disse que os usuários podem personalizar o modelo para entender melhor certas palavras, nomes e jargões se o usarem para tarefas específicas.

O desafio de construir modelos de IA pequenos e rápidos é que eles também precisam ser precisos, disse Inventory. A empresa elogiou o desempenho dos modelos em benchmarks, mostrando melhores taxas de erro em comparação com os concorrentes.

“Não basta dizer: OK, farei um modelo pequeno”, disse Inventory. “O que você precisa é de um modelo pequeno que tenha a mesma qualidade dos modelos maiores, certo?”



avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui