Início Tecnologia Além do lago: o NEXUS da Basic ignora o ETL handbook com...

Além do lago: o NEXUS da Basic ignora o ETL handbook com um modelo de base nativo para dados tabulares

9
0

A revolução do deep studying tem um curioso ponto cego: a planilha. Embora os Giant Language Fashions (LLMs) tenham dominado as nuances da prosa humana e os geradores de imagens tenham conquistado a tela digital, os dados estruturados e relacionais que sustentam a economia world – as linhas e colunas dos sistemas ERP, CRMs e livros contábeis – têm sido tratados até agora apenas como outro formato de arquivo semelhante a texto ou PDFs.

Isso deixou as empresas prevendo os resultados dos negócios usando o típico processo de ciência de dados personalizado e trabalhoso de engenharia handbook de recursos e algoritmos clássicos de aprendizado de máquina que antecedem o aprendizado profundo moderno.

Mas agora Fundamentaluma empresa de IA com sede em São Francisco, cofundada por ex-alunos da DeepMind, é lançado hoje com US$ 255 milhões em financiamento total para preencher essa lacuna.

Emergindo do sigilo, a empresa está lançando o NEXUS, um Grande Modelo Tabular (LTM) projetado para tratar dados de negócios não como uma simples sequência de palavras, mas como uma teia complexa de relacionamentos não lineares.

Co-fundadores fundamentais Jeremy Fraenkel, Annie Lamont e Gabriel Suissa. Crédito: Basic

A tecnologia: indo além da lógica sequencial

A maioria dos modelos atuais de IA são construídos com base em lógica sequencial – prevendo a próxima palavra em uma frase ou o próximo pixel em um quadro.

No entanto, os dados empresariais são inerentemente não sequenciais. O risco de rotatividade de um cliente não é apenas um cronograma; é uma interseção multidimensional de frequência de transações, sentimento de suporte a tickets e mudanças econômicas regionais. Os LLMs existentes lutam com isso porque são pouco adequados às restrições de tamanho e dimensionalidade das tabelas em escala empresarial.

“Os dados mais valiosos do mundo vivem em tabelas e até agora não houve um bom modelo de base construído especificamente para compreendê-los”, disse Jeremy Fraenkel, CEO e cofundador da Basic.

Numa entrevista recente à VentureBeat, Fraenkel enfatizou que embora o mundo da IA ​​seja obcecado por texto, áudio e vídeo, as tabelas continuam a ser a maior modalidade para as empresas. “Os LLMs realmente não conseguem lidar muito bem com esse tipo de dados”, explicou ele, “e as empresas atualmente contam com algoritmos de aprendizado de máquina muito antigos para fazer previsões”.

O NEXUS foi treinado em bilhões de conjuntos de dados tabulares do mundo actual usando o Amazon SageMaker HyperPod. Ao contrário dos modelos tradicionais XGBoost ou Random Forest, que exigem que os cientistas de dados definam manualmente os recursos – as variáveis ​​específicas que o modelo deve observar – o NEXUS foi projetado para ingerir tabelas brutas diretamente.

Ele identifica padrões latentes em colunas e linhas que os analistas humanos podem não perceber, lendo efetivamente a linguagem oculta da grade para compreender as interações não lineares.

A armadilha da tokenização

A principal razão pela qual os LLMs tradicionais falham em dados tabulares é a forma como eles processam os números. Fraenkel explica que os LLMs tokenizam números da mesma forma que tokenizam palavras, dividindo-os em pedaços menores. “O problema é que eles aplicam a mesma coisa aos números. As tabelas são, em geral, todas numéricas”, observou Fraenkel. “Se você tem um número como 2,3, o ‘2’, o ‘.’ e o ‘3’ são vistos como três tokens diferentes. Isso significa essencialmente que você perde a compreensão da distribuição dos números. Não é como uma calculadora; você nem sempre obtém a resposta certa porque o modelo não entende o conceito de números nativamente.”

Além disso, os dados tabulares são invariantes na ordem de uma forma que a linguagem não o é. Fraenkel usa um exemplo de saúde para ilustrar: “Se eu lhe der uma tabela com centenas de milhares de pacientes e pedir que você preveja qual deles tem diabetes, não deveria importar se a primeira coluna é a altura e a segunda é o peso, ou vice-versa”.

Embora os LLMs sejam altamente sensíveis à ordem das palavras em um immediate, o NEXUS é arquitetado para compreender que a mudança nas posições das colunas não deve impactar a previsão subjacente.

Operando na camada preditiva

Integrações recentes de alto perfil, como Claude da Anthropic aparecendo diretamente no Microsoft Excel, sugeriram que os LLMs já estão resolvendo tabelas.

No entanto, Fraenkel distingue o trabalho de Basic como operando numa camada fundamentalmente diferente: a camada preditiva. “O que eles estão fazendo é essencialmente na camada de fórmulas – fórmulas são texto, são como código”, disse ele. “Não estamos tentando permitir que você construa um modelo financeiro no Excel. Estamos ajudando você a fazer uma previsão.”

O NEXUS foi projetado para decisões em frações de segundo onde um ser humano não está por dentro, como um provedor de cartão de crédito determinando se uma transação é fraudulenta no momento em que você passa o dedo.

Embora ferramentas como o Claude possam resumir uma planilha, o NEXUS foi criado para prever a próxima linha — seja uma falha de equipamento em uma fábrica ou a probabilidade de um paciente ser readmitido em um hospital.

Arquitetura e disponibilidade

A proposta de valor central do Basic é a redução radical do tempo de obtenção de insights. Tradicionalmente, construir um modelo preditivo poderia levar meses de trabalho handbook.

“É preciso contratar um exército de cientistas de dados para construir todos esses pipelines de dados para processar e limpar os dados”, explicou Fraenkel. “Se houver valores ausentes ou dados inconsistentes, seu modelo não funcionará. Você precisa construir esses pipelines para cada caso de uso.”

Reivindicações fundamentais O NEXUS substitui todo esse processo handbook por apenas uma linha de código. Como o modelo foi pré-treinado em um bilhão de tabelas, ele não requer o mesmo nível de treinamento específico de tarefas ou engenharia de recursos que os algoritmos tradicionais exigem.

À medida que a Basic passa de sua fase furtiva para um mercado mais amplo, ela o faz com uma estrutura comercial projetada para contornar o atrito tradicional da adoção de software program empresarial.

A empresa já garantiu vários contratos de sete dígitos com organizações da Fortune 100, um feito facilitado por uma arquitetura estratégica de entrada no mercado, onde a Amazon Internet Companies (AWS) atua como vendedora registrada no AWS Market.

Isso permite que os líderes empresariais adquiram e implantem o NEXUS usando os créditos existentes da AWS, tratando efetivamente a inteligência preditiva como um utilitário padrão junto com a computação e o armazenamento. Para os engenheiros encarregados da implementação, a experiência é de alto impacto, mas de baixo atrito; O NEXUS opera por meio de uma interface baseada em Python em uma camada puramente preditiva, em vez de conversacional.

Os desenvolvedores conectam tabelas brutas diretamente ao modelo e rotulam colunas de destino específicas – como probabilidade de inadimplência de crédito ou pontuação de risco de manutenção – para acionar a previsão. O modelo retorna então regressões ou classificações diretamente para a pilha de dados corporativos, funcionando como um mecanismo silencioso e de alta velocidade para tomada de decisão automatizada, em vez de um assistente baseado em chat.

Os desafios sociais: além dos resultados financeiros

Embora as implicações comerciais da previsão da procura e da previsão de preços sejam claras, Basic sublinha o benefício social da inteligência preditiva.

A empresa destaca as principais áreas onde a NEXUS pode evitar resultados catastróficos, identificando sinais ocultos em dados estruturados.

Ao analisar dados de sensores e registros de manutenção, o NEXUS pode prever falhas como corrosão de tubos. A empresa aponta a crise hídrica de Flint – que custou mais de mil milhões de dólares em reparações – como um exemplo em que a monitorização preditiva poderia ter evitado a contaminação potencialmente deadly.

Da mesma forma, durante a crise da COVID-19, a escassez de EPI custou aos hospitais 323 mil milhões de dólares num único ano. Basic argumenta que, ao utilizar dados de produção e epidemiológicos, a NEXUS pode prever a escassez 4 a 6 semanas antes do pico da procura, desencadeando a produção de emergência a tempo de salvar vidas.

Na frente climática, o NEXUS pretende fornecer previsões de inundações e secas de 30 a 60 dias, como as inundações de 2022 no Paquistão, que causaram danos de 30 mil milhões de dólares.

Finalmente, o modelo está a ser utilizado para prever riscos de readmissão hospitalar através da análise da demografia dos pacientes e dos determinantes sociais. Como afirma a empresa: “Uma mãe solteira que trabalha em dois empregos não deveria voltar ao pronto-socorro porque não conseguimos prever que ela precisaria de cuidados de acompanhamento”.

Desempenho versus latência

No mundo empresarial, a definição de melhor varia de acordo com o setor. Para alguns, é velocidade; para outros, é precisão bruta.

“Em termos de latência, depende do caso de uso”, explica Fraenkel. “Se você é um pesquisador tentando entender quais medicamentos administrar a um paciente na África, a latência não importa tanto. Você está tentando tomar uma decisão mais precisa que pode acabar salvando o maior número de vidas possível”.

Em contraste, para um banco ou fundo de cobertura, mesmo um aumento marginal na precisão traduz-se num valor enorme.

“Aumentar a precisão das previsões em meio por cento vale bilhões de dólares para um banco”, diz Fraenkel. “Para diferentes casos de uso, a magnitude do aumento percentual muda, mas podemos levar você a um desempenho melhor do que o que você tem atualmente.”

Visão ambiciosa recebe grande apoio

A Série A de US$ 225 milhões, liderada pela Oak HC/FT com a participação da Salesforce Ventures, Valor Fairness Companions e Battery Ventures, sinaliza uma crença altamente convicta de que os dados tabulares são a próxima grande fronteira.

Investidores anjos notáveis, incluindo líderes da Perplexity, Wiz, Brex e Datadog, validam ainda mais o pedigree da empresa.

Annie Lamont, cofundadora e sócia-gerente da Oak HC/FT, articulou o sentimento: “É difícil exagerar a importância do modelo da Basic – dados estruturados e relacionais ainda não viram os benefícios da revolução do aprendizado profundo.”

Basic é posicionar-se não apenas como mais uma ferramenta de IA, mas como uma nova categoria de IA empresarial. Com uma equipe de aproximadamente 35 pessoas baseada em São Francisco, a empresa está se afastando da period dos modelos sob medida e em direção à period dos modelos básicos para mesas.

“Esses algoritmos tradicionais têm sido os mesmos nos últimos 10 anos; eles não estão melhorando”, disse Fraenkel. “Nossos modelos continuam melhorando. Estamos fazendo com as tabelas o mesmo que o ChatGPT fez com o texto.”

Parceria com AWS

Através de uma parceria estratégica com a Amazon Internet Companies (AWS), o NEXUS é integrado diretamente no painel da AWS. Os clientes da AWS podem implantar o modelo usando seus créditos e infraestrutura existentes. Fraenkel descreve isso como um “acordo único”, observando que a Basic é uma das duas únicas empresas de IA que estabeleceu uma parceria tão profunda e multifacetada com a Amazon.

Um dos obstáculos mais significativos para a IA empresarial é a privacidade dos dados. Muitas vezes, as empresas não estão dispostas a transferir dados confidenciais para uma infraestrutura de terceiros.

Para resolver isso, a Basic e a Amazon alcançaram um grande feito de engenharia: a capacidade de implantar modelos totalmente criptografados — tanto a arquitetura quanto os pesos — diretamente no próprio ambiente do cliente. “Os clientes podem ter certeza de que os dados estarão com eles”, disse Fraenkel. “Somos a primeira, e atualmente a única, empresa a construir tal solução.”

O surgimento do Basic é uma tentativa de redefinir o sistema operacional para decisões de negócios. Se o NEXUS funcionar como anunciado – lidando com fraudes financeiras, preços de energia e perturbações na cadeia de abastecimento com um modelo único e generalizado – marcará o momento em que a IA finalmente aprenderá a ler as folhas de cálculo que realmente governam o mundo. O poder de prever não se trata mais de olhar para o que aconteceu ontem; trata-se de descobrir a linguagem oculta das tabelas para determinar o que acontecerá amanhã.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui