Apresentado por F5
À medida que as empresas investem bilhões em infraestrutura de GPU para cargas de trabalho de IA, muitas descobrem que seus caros recursos computacionais ficam ociosos muito mais do que o esperado. O culpado não é o {hardware}. É a camada de entrega de dados muitas vezes invisível entre o armazenamento e a computação que está privando as GPUs das informações de que precisam.
“Embora as pessoas concentrem sua atenção, justificadamente, nas GPUs, porque são investimentos muito significativos, esses raramente são o fator limitante”, diz Mark Menger, arquiteto de soluções da F5. “Eles são capazes de trabalhar mais. Estão esperando por dados.”
O desempenho da IA depende cada vez mais de um ponto de controle independente e programável entre as estruturas de IA e o armazenamento de objetos — um ponto que a maioria das empresas não arquitetou deliberadamente. À medida que as cargas de trabalho de IA são escalonadas, gargalos e instabilidade ocorrem quando as estruturas de IA são fortemente acopladas a endpoints de armazenamento específicos durante eventos de escalonamento, falhas e transições para nuvem.
“Os padrões tradicionais de acesso ao armazenamento não foram projetados para cargas de trabalho de IA altamente paralelas, em rajadas e multiconsumidores”, afirma Maggie Stringfellow, vice-presidente de gerenciamento de produtos – BIG-IP. “A movimentação eficiente de dados de IA requer uma camada de entrega de dados distinta, projetada para abstrair, otimizar e proteger os fluxos de dados independentemente dos sistemas de armazenamento, porque a economia da GPU torna a ineficiência imediatamente visível e cara.”
Por que as cargas de trabalho de IA sobrecarregam o armazenamento de objetos
Esses padrões bidirecionais incluem ingestão massiva de captura contínua de dados, saída de simulação e pontos de verificação de modelo. Combinado com treinamento intensivo de leitura e cargas de trabalho de inferênciaeles enfatizam a infraestrutura fortemente acoplada da qual dependem os sistemas de armazenamento.
Embora os fornecedores de armazenamento tenham feito um trabalho significativo no dimensionamento da entrada e saída de dados de seus sistemas, esse foco apenas na taxa de transferência cria efeitos indiretos nas camadas de comutação, gerenciamento de tráfego e segurança acopladas ao armazenamento.
O estresse em Sistemas compatíveis com S3 das cargas de trabalho de IA é multidimensional e difere significativamente dos padrões de aplicativos tradicionais. Trata-se menos de taxa de transferência bruta e mais de simultaneidade, pressão de metadados e considerações de distribuição. O treinamento e o ajuste fino criam padrões particularmente desafiadores, como leituras paralelas massivas de objetos de pequeno a médio porte. Essas cargas de trabalho também envolvem passagens repetidas por dados de treinamento entre épocas e rajadas periódicas de gravação de pontos de verificação.
As cargas de trabalho RAG apresentam sua própria complexidade por meio da amplificação de solicitações. Uma única solicitação pode se espalhar em dezenas ou centenas de blocos de dados adicionais, em cascata para obter mais detalhes, blocos relacionados e documentos mais complexos. A concentração de estresse tem menos a ver com capacidade, velocidade do sistema de armazenamento e mais com gerenciamento de solicitações e modelagem de tráfego.
Os riscos de acoplar fortemente estruturas de IA ao armazenamento
Quando as estruturas de IA se conectam diretamente aos endpoints de armazenamento sem uma camada de entrega intermediária, a fragilidade operacional aumenta rapidamente durante eventos de escalonamento, falhas e transições para a nuvem, o que pode ter consequências importantes.
“Qualquer instabilidade no serviço de armazenamento agora tem um raio de explosão incontido”, diz Menger. “Qualquer coisa aqui se torna uma falha de sistema, não de armazenamento. Ou, francamente, o comportamento aberrante em um aplicativo pode ter efeitos indiretos para todos os consumidores desse serviço de armazenamento.”
Menger descreve um padrão que ele observou em três clientes diferentes, onde o acoplamento rígido resultou em falhas completas do sistema.
“Vemos grandes cargas de trabalho de treinamento ou ajuste sobrecarregando a infraestrutura de armazenamento, e a infraestrutura de armazenamento fica inoperante”, explica ele. “Nessa escala, a recuperação nunca é medida em segundos. Minutos, se você tiver sorte. Geralmente horas. As GPUs agora não estão sendo alimentadas. Elas estão carentes de dados. Esses recursos de alto valor, durante todo o tempo em que o sistema está inativo, têm ROI negativo.”
Como uma camada independente de entrega de dados melhora a utilização e a estabilidade da GPU
O impacto financeiro da introdução de uma camada independente de entrega de dados vai além da prevenção de falhas catastróficas.
A dissociação permite que o acesso aos dados seja otimizado independentemente do {hardware} de armazenamento, melhorando a utilização da GPU ao reduzir o tempo ocioso e a contenção, ao mesmo tempo que melhora a previsibilidade de custos e o desempenho do sistema à medida que a escala aumenta, diz Stringfellow.
“Ele permite cache inteligente, modelagem de tráfego e otimização de protocolo mais próxima da computação, o que reduz os custos de saída da nuvem e amplificação de armazenamento”, explica ela. “Operacionalmente, esse isolamento protege os sistemas de armazenamento de padrões ilimitados de acesso de IA, resultando em um comportamento de custos mais previsível e desempenho estável sob crescimento e variabilidade.”
Usando um ponto de controle programável entre computação e armazenamento
A resposta de F5 é posicionar seu Plataforma de segurança e entrega de aplicativos, alimentada por BIG-IPcomo uma “porta de entrada de armazenamento” que fornece roteamento com reconhecimento de integridade, prevenção de pontos de acesso, aplicação de políticas e controles de segurança sem a necessidade de reescrita de aplicativos.
“A introdução de um nível de entrega entre computação e armazenamento ajuda a definir limites de responsabilidade”, diz Menger. “A computação tem a ver com execução. O armazenamento tem a ver com durabilidade. A entrega tem a ver com confiabilidade.”
O ponto de controle programável, que usa lógica condicional baseada em eventos em vez de IA generativa, permite o gerenciamento inteligente de tráfego que vai além do simples balanceamento de carga. As decisões de roteamento são baseadas na integridade actual do back-end, usando reconhecimento inteligente de integridade para detectar sinais precoces de problemas. Isto inclui monitorar os principais indicadores de problemas. E quando surgem problemas, o sistema pode isolar componentes com comportamento inadequado sem interromper todo o serviço.
“Uma camada de entrega de dados independente e programável torna-se necessária porque permite que políticas, otimização, segurança e controle de tráfego sejam aplicados uniformemente em caminhos de ingestão e consumo sem modificar sistemas de armazenamento ou estruturas de IA”, diz Stringfellow. “Ao dissociar o acesso aos dados da implementação de armazenamento, as organizações podem absorver com segurança gravações intermitentes, otimizar leituras e proteger os sistemas back-end de padrões ilimitados de acesso de IA.”
Lidando com problemas de segurança na entrega de dados de IA
A IA não está apenas pressionando as equipes de armazenamento no rendimento, mas também as forçando a tratar a movimentação de dados como um problema de desempenho e segurança, diz Stringfellow. A segurança não pode mais ser assumida simplesmente porque os dados estão armazenados no knowledge heart. A IA introduz padrões de acesso automatizados e de alto quantity que devem ser autenticados, criptografados e controlados rapidamente. É aí que entra o F5 BIG-IP.
“O F5 BIG-IP fica diretamente no caminho de dados de IA para fornecer acesso de alto rendimento ao armazenamento de objetos, ao mesmo tempo que aplica políticas, inspeciona o tráfego e toma decisões de gerenciamento de tráfego baseadas em carga útil”, diz Stringfellow. “Alimentar GPUs rapidamente é necessário, mas não suficiente; as equipes de armazenamento agora precisam ter certeza de que os fluxos de dados de IA estão otimizados, controlados e seguros.”
Por que a entrega de dados definirá a escalabilidade da IA
Olhando para o futuro, os requisitos para a entrega de dados só se intensificarão, afirma Stringfellow.
“A entrega de dados de IA passará da otimização em massa para a orquestração de dados em tempo actual, orientada por políticas, em sistemas distribuídos”, diz ela. “As arquiteturas baseadas em Agentic e RAG exigirão controle de tempo de execução refinado sobre latência, escopo de acesso e limites de confiança delegados. As empresas devem começar a tratar a entrega de dados como infraestrutura programável, não como um subproduto de armazenamento ou rede. As organizações que fizerem isso antecipadamente escalarão mais rapidamente e com menos riscos.”
Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.











