Início Tecnologia Mistral lança Voxtral Transcribe 2, um modelo de fala de código aberto...

Mistral lança Voxtral Transcribe 2, um modelo de fala de código aberto que roda no dispositivo por alguns centavos

13
0

IA Mistrala startup com sede em Paris que se posiciona como a resposta da Europa ao OpenAI, lançou na quarta-feira um par de modelos de fala para texto que, segundo a empresa, podem transcrever áudio com mais rapidez, precisão e muito mais custo do que qualquer outro no mercado – tudo isso rodando inteiramente em um smartphone ou laptop computer.

O anúncio marca a última salva numa batalha cada vez mais competitiva pela IA de voz, uma tecnologia que os clientes empresariais consideram essencial para tudo, desde o atendimento automatizado ao cliente até à tradução em tempo actual. Mas, ao contrário das ofertas dos gigantes tecnológicos americanos, o novo Transcrever Voxtral 2 os modelos são projetados para processar áudio sensível sem nunca transmiti-lo a servidores remotos – um recurso que pode ser decisivo para empresas em setores regulamentados como saúde, finanças e defesa.

“Você gostaria que sua voz e a transcrição de sua voz ficassem perto de onde você está, o que significa que você quer que isso aconteça no dispositivo – em um laptop computer, telefone ou smartwatch”, disse Pierre Inventory, vice-presidente de operações científicas da Mistral, em entrevista ao VentureBeat. “Tornamos isso possível porque o modelo tem apenas 4 bilhões de parâmetros. É pequeno o suficiente para caber em quase qualquer lugar.”

Mistral divide sua nova tecnologia de transcrição de IA em processamento em lote e aplicativos em tempo actual

A Mistral lançou dois modelos distintos sob a bandeira Voxtral Transcribe 2, cada um projetado para diferentes casos de uso.

  • Voxtral Mini Transcrição V2 lida com transcrição em lote, processando arquivos de áudio pré-gravados em massa. A empresa afirma que atinge a menor taxa de erro de palavras de qualquer serviço de transcrição e está disponível through API a US$ 0,003 por minuto, cerca de um quinto do preço dos principais concorrentes. O modelo suporta 13 idiomas, incluindo inglês, mandarim, japonês, árabe, hindi e vários idiomas europeus.

  • Voxtral em tempo realcomo o próprio nome sugere, processa áudio ao vivo com uma latência que pode ser configurada em até 200 milissegundos – um piscar de olhos. Mistral afirma que este é um avanço para aplicações onde até mesmo um atraso de dois segundos é inaceitável: legendagem ao vivo, agentes de voz e aumento do atendimento ao cliente em tempo actual.

O Modelo em tempo real navios sob um Apache 2.0 licença de código aberto, o que significa que os desenvolvedores podem baixar os pesos do modelo em Abraçando o rostomodifique-os e implante-os sem pagar uma taxa de licenciamento à Mistral. Para empresas que preferem não administrar sua própria infraestrutura, o acesso à API custa US$ 0,006 por minuto.

Inventory disse que a Mistral está apostando na comunidade de código aberto para expandir o alcance do modelo. “A comunidade de código aberto é muito imaginativa quando se trata de aplicações”, disse ele. “Estamos entusiasmados para ver o que eles vão fazer.”

Por que o processamento de IA no dispositivo é importante para empresas que lidam com dados confidenciais

A decisão de projetar modelos pequenos o suficiente para serem executados localmente reflete um cálculo sobre o rumo que o mercado empresarial está tomando. À medida que as empresas integram a IA em fluxos de trabalho cada vez mais sensíveis – transcrevendo consultas médicas, chamadas de consultoria financeira, depoimentos legais – a questão de para onde esses dados viajam tornou-se um obstáculo.

Inventory pintou um quadro vívido do problema durante sua entrevista. Os aplicativos atuais de anotações com recursos de áudio, explicou ele, muitas vezes captam o ruído ambiente de maneiras problemáticas: “Ele pode captar a letra da música de fundo. Pode captar outra conversa. Pode ter alucinações devido a um ruído de fundo.”

A Mistral investiu pesadamente no treinamento de curadoria de dados e arquitetura de modelos para resolver esses problemas. “Tudo isso, gastamos muito tempo resolvendo os dados e a forma como treinamos o modelo para robustecê-lo”, disse Inventory.

A empresa também adicionou recursos específicos da empresa que seus concorrentes americanos demoraram a implementar. A polarização de contexto permite que os clientes carreguem uma lista de terminologia especializada – jargão médico, nomes de produtos proprietários, siglas do setor – e o modelo favorecerá automaticamente esses termos ao transcrever áudio ambíguo. Ao contrário do ajuste fino, que requer um novo treinamento do modelo, a polarização de contexto funciona por meio de um parâmetro de API simples.

“Você só precisa de uma lista de texto”, explicou Inventory. “E então o modelo irá automaticamente direcionar a transcrição para essas siglas ou palavras estranhas. E não há necessidade de retreinamento, nem de coisas estranhas.”

Do chão de fábrica aos name facilities, a Mistral visa ambientes industriais de alto ruído

Inventory descreveu dois cenários que capturam como a Mistral prevê a implantação da tecnologia.

O primeiro envolve auditoria industrial. Think about técnicos andando por uma fábrica, inspecionando máquinas pesadas enquanto gritam observações acima do barulho da fábrica. “No last, think about notas com carimbo de information e hora perfeitas identificando quem disse o quê – então diarização – ao mesmo tempo que é tremendous robusto”, disse Inventory. O desafio é lidar com o que ele chamou de “linguagem técnica estranha que ninguém consegue soletrar, exceto essas pessoas”.

O segundo cenário tem como alvo as operações de atendimento ao cliente. Quando um chamador entra em contato com um centro de suporte, o Voxtral Realtime pode transcrever a conversa em tempo actual, enviando texto para sistemas de back-end que obtêm registros relevantes do cliente antes que o chamador termine de explicar o problema.

“O standing aparecerá para a operadora na tela antes que o cliente interrompa a sentença e pare de reclamar”, explicou Inventory. “O que significa que você pode simplesmente interagir e dizer: ‘Okay, posso ver o standing. Deixe-me corrigir o endereço e devolver a remessa'”.

Ele estimou que isso poderia reduzir as interações típicas de atendimento ao cliente, de múltiplas trocas de ida e volta, para apenas duas interações: o cliente explica o problema e o agente o resolve imediatamente.

A tradução em tempo actual entre idiomas pode chegar até o last de 2026

Apesar de todo o foco na transcrição, Inventory deixou claro que Mistral vê esses modelos como tecnologia basic para um objetivo mais ambicioso: tradução de fala para fala em tempo actual que pareça pure.

“Talvez o objetivo last da aplicação e o modelo para o qual o modelo está estabelecendo as bases seja a tradução ao vivo”, disse ele. “Eu falo francês, você fala inglês. É basic ter latência mínima, porque senão você não cria empatia. Seu rosto não está fora de sincronia com o que você disse há um segundo.”

Esse objetivo coloca a Mistral em concorrência direta com Maçã e Googleambos correndo para resolver o mesmo problema. As últimas novidades do Google modelo de tradução opera com um atraso de dois segundos – dez vezes mais lento do que o que Mistral afirma Voxtral em tempo real.

Mistral se posiciona como a alternativa que prioriza a privacidade para clientes corporativos

Mistral ocupa uma posição incomum no cenário da IA. Fundada em 2023 por ex-alunos da Meta e do Google DeepMind, a empresa arrecadou mais de US$ 2 bilhões e agora carrega uma avaliação de aproximadamente US$ 13,6 bilhões. No entanto, opera com uma fração dos recursos computacionais disponíveis para os hiperscaladores americanos – e construiu a sua estratégia em torno da eficiência e não da força bruta.

“Os modelos que lançamos são de nível empresarial, líderes do setor, eficientes – em specific, em termos de custo – podem ser incorporados na borda, desbloqueiam privacidade, desbloqueiam controle e transparência”, disse Inventory.

Essa abordagem repercutiu particularmente entre os clientes europeus, cautelosos quanto à dependência da tecnologia americana. Em janeiro, a França Ministério das Forças Armadas assinou um acordo-quadro que dá aos militares do país acesso aos modelos de IA da Mistral – um acordo que exige explicitamente a implantação em infra-estruturas controladas pela França.

“Acho que uma grande barreira para a adoção da IA ​​de voz é que, ei, se você está em um setor sensível como finanças, manufatura, saúde ou seguros, não pode ter as informações de que está falando, basta ir para a nuvem”, observou Howard Cohen, que participou da entrevista ao lado de Inventory. “Ele precisa estar no dispositivo ou nas suas instalações.”

Mistral enfrenta forte concorrência da OpenAI, Google e da China em ascensão

O mercado de transcrição tornou-se extremamente competitivo. OpenAI’s Modelo sussurro tornou-se uma espécie de padrão da indústria, disponível tanto por meio de API quanto como pesos de código aberto para obtain. Google, Amazôniae Microsoft todos oferecem serviços de fala de nível empresarial. Jogadores especializados como IA de montagem e Deepgram construímos negócios substanciais atendendo desenvolvedores que precisam de transcrição confiável e escalonável.

Mistral afirma que seus novos modelos superam todos eles em benchmarks de precisão, ao mesmo tempo que os reduzem no preço. “Somos melhores que eles nos benchmarks”, disse Inventory. A verificação independente dessas afirmações levará tempo, mas a empresa aponta para o desempenho em FLORum benchmark de fala multilíngue amplamente utilizado, onde os modelos Voxtral alcançam taxas de erro de palavras competitivas ou superiores às alternativas da OpenAI e do Google.

Talvez mais significativamente, o CEO da Mistral, Arthur Mensch, alertou que as empresas americanas de IA enfrentam pressão de uma direção inesperada. Falando no Fórum Econômico Mundial em Davos no mês passado, Mensch rejeitou a noção de que a IA chinesa está atrasada em relação ao Ocidente, considerando-a “um conto de fadas”.

“As capacidades da tecnologia de código aberto da China provavelmente estão estressando os CEOs nos EUA”, disse ele.

A startup francesa aposta que a confiança determinará o vencedor na IA de voz empresarial

Inventory previu que 2026 seria “o ano das anotações” – o momento em que a transcrição da IA ​​se tornaria confiável o suficiente para que os usuários confiassem nela completamente.

“Você precisa confiar no modelo, e o modelo basicamente não pode cometer nenhum erro, caso contrário você simplesmente perderia a confiança no produto e pararia de usá-lo”, disse ele. “O limite é tremendous, tremendous difícil.”

Resta saber se Mistral ultrapassou esse limiar. Os clientes corporativos serão os juízes finais e tendem a agir lentamente, testando as afirmações em relação à realidade antes de comprometer orçamentos e fluxos de trabalho com novas tecnologias. O playground de áudio em Estúdio Mistralonde os desenvolvedores podem testar Transcrever Voxtral 2 com seus próprios arquivos, foi ao ar hoje.

Mas o argumento mais amplo de Inventory merece atenção. Num mercado onde os gigantes americanos competem investindo milhares de milhões de dólares em modelos cada vez maiores, Mistral está a fazer uma aposta diferente: que na period da IA, os mais pequenos e locais poderão vencer os maiores e mais distantes. Para os executivos que passam os dias preocupados com a soberania dos dados, a conformidade regulamentar e a dependência de fornecedores, esse argumento pode revelar-se mais convincente do que qualquer referência.

A corrida para dominar a IA de voz empresarial não envolve mais apenas quem constrói o modelo mais poderoso. É sobre quem constrói o modelo que você está disposto a deixar ouvir.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui