Início Tecnologia A maioria dos sistemas RAG não entende documentos sofisticados – eles os...

A maioria dos sistemas RAG não entende documentos sofisticados – eles os destroem

13
0

Até agora, muitas empresas já implantaram alguma forma de RAG. A promessa é sedutora: indexe seus PDFs, conecte um LLM e democratize instantaneamente seu conhecimento corporativo.

Mas para as indústrias dependentes da engenharia pesada, a realidade tem sido desanimadora. Os engenheiros fazem perguntas específicas sobre infraestrutura e o bot tem alucinações.

A falha não está no LLM. A falha está no pré-processamento.

Os pipelines RAG padrão tratam os documentos como sequências simples de texto. Eles usam “fragmentação de tamanho fixo” (cortar um documento a cada 500 caracteres). Isto funciona para a prosa, mas destrói a lógica dos manuais técnicos. Ele corta as tabelas ao meio, separa as legendas das imagens e ignora a hierarquia visible da página.

EUmelhorar a confiabilidade do RAG não significa comprar um modelo maior; trata-se de corrigir o problema dos “dados obscuros” por meio de agrupamento semântico e textualização multimodal.

Aqui está a estrutura arquitetônica para construir um sistema RAG que possa realmente ler um handbook.

A falácia do chunking de tamanho fixo

Em um tutorial padrão do Python RAG, você divide o texto por contagem de caracteres. Em um PDF empresarial, isso é desastroso.

Se uma tabela de especificações de segurança abrange 1.000 tokens e o tamanho do seu bloco é 500, você acabou de dividir o cabeçalho “limite de tensão” do valor “240V”. O banco de dados vetorial os armazena separadamente. Quando um usuário pergunta “Qual é o limite de tensão?”, o sistema de recuperação encontra o cabeçalho, mas não o valor. O LLM, forçado a responder, muitas vezes adivinha.

A solução: fragmentação semântica

O primeiro passo para corrigir o RAG de produção é abandonar a contagem arbitrária de caracteres em favor da inteligência documental.

Utilizando ferramentas de análise com reconhecimento de format (como o Azure Doc Intelligence), podemos segmentar dados com base na estrutura do documento, como capítulos, seções e parágrafos, em vez da contagem de tokens.

  • Coesão lógica: Uma seção que descreve uma peça específica da máquina é mantida como um único vetor, mesmo que varie em comprimento.

  • Preservação da mesa: O analisador identifica um limite de tabela e força toda a grade em um único bloco, preservando as relações linha-coluna que são vitais para uma recuperação precisa.

Em nossos benchmarks qualitativos internos, passar da fragmentação fixa para a semântica melhorou significativamente a precisão da recuperação de dados tabulares, interrompendo efetivamente a fragmentação das especificações técnicas.

Desbloqueando dados visuais escuros

O segundo modo de falha do RAG empresarial é a cegueira. Uma enorme quantidade de IP corporativo não existe em texto, mas em fluxogramas, esquemas e diagramas de arquitetura de sistema. Modelos de incorporação padrão (como text-embedding-3-small) não podem “ver” essas imagens. Eles são ignorados durante a indexação.

Se a sua resposta estiver em um fluxograma, seu sistema RAG dirá: “Não sei”.

A solução: textualização multimodal

Para tornar os diagramas pesquisáveis, implementamos uma etapa de pré-processamento multimodal usando modelos com capacidade de visão (especificamente GPT-4o) antes que os dados cheguem ao armazenamento de vetores.

  1. Extração de OCR: O reconhecimento óptico de caracteres de alta precisão extrai rótulos de texto de dentro da imagem.

  2. Legendagem generativa: O modelo de visão analisa a imagem e gera uma descrição detalhada em linguagem pure (“Um fluxograma mostrando que o processo A leva ao processo B se a temperatura exceder 50 graus”).

  3. Incorporação híbrida: Esta descrição gerada é incorporada e armazenada como metadados vinculados à imagem unique.

Agora, quando um usuário pesquisa por “fluxo de processo de temperatura”, a pesquisa vetorial corresponde ao descriçãomesmo que a fonte unique fosse um arquivo PNG.

A camada de confiança: UI baseada em evidências

Para adoção empresarial, a precisão é apenas metade da batalha. A outra metade é verificabilidade.

Em uma interface RAG padrão, o chatbot fornece uma resposta em texto e cita um nome de arquivo. Isso força o usuário a baixar o PDF e procurar a página para verificar a reivindicação. Para perguntas de alto risco (“Este produto químico é inflamável?”), os usuários simplesmente não confiarão no bot.

O a arquitetura deve implementar citação visible. Como preservamos o hyperlink entre o bloco de texto e sua imagem pai durante a fase de pré-processamento, a IU pode exibir o gráfico ou tabela exato usado para gerar a resposta junto com a resposta de texto.

Este mecanismo de “mostre o seu trabalho” permite que os humanos verifiquem instantaneamente o raciocínio da IA, colmatando a lacuna de confiança que mata tantos projetos internos de IA.

Preparado para o futuro: incorporações multimodais nativas

Embora o método de “textualização” (conversão de imagens em descrições de texto) seja a solução prática hoje, a arquitetura está evoluindo rapidamente.

Já estamos vendo o surgimento de incorporações multimodais nativas (como o Embed 4 de Cohere). Esses modelos podem mapear texto e imagens no mesmo espaço vetorial sem a etapa intermediária de legendagem. Embora atualmente utilizemos um pipeline de vários estágios para controle máximo, o futuro da infraestrutura de dados provavelmente envolverá a vetorização “ponta a ponta”, onde o format de uma página é incorporado diretamente.

Além disso, como LLMs de contexto longo tornar-se rentável, a necessidade de fragmentação pode diminuir. Em breve poderemos passar manuais inteiros para a janela de contexto. No entanto, até que a latência e o custo das chamadas de milhões de tokens caiam significativamente, o pré-processamento semântico continua a ser a estratégia economicamente mais viável para sistemas em tempo actual.

Conclusão

A diferença entre uma demonstração RAG e um sistema de produção é como ele lida com a realidade confusa dos dados empresariais.

Pare de tratar seus documentos como simples sequências de texto. Se você deseja que sua IA entenda seu negócio, você deve respeitar a estrutura de seus documentos. Ao implementar a fragmentação semântica e desbloquear os dados visuais em seus gráficos, você transforma seu sistema RAG de um “pesquisador de palavras-chave” em um verdadeiro “assistente de conhecimento”.

Dippu Kumar Singh é arquiteto de IA e engenheiro de dados.

Bem-vindo à comunidade VentureBeat!

Nosso programa de visitor posts é onde especialistas técnicos compartilham insights e fornecem análises profundas, neutras e não adquiridas, sobre IA, infraestrutura de dados, segurança cibernética e outras tecnologias de ponta que moldam o futuro das empresas.

Leia mais do nosso programa de visitor submit – e confira nosso diretrizes se você estiver interessado em contribuir com um artigo de sua autoria!

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui