A computação é frequentemente celebrada por sua precisão e velocidade. Mas os investigadores e os operadores de centros de dados em hiperescala alertam para uma ameaça crescente que desafia uma das principais promessas da computação: a correção. O problema é conhecido como corrupção silenciosa de dados (SDC) – um fenômeno em que defeitos de {hardware} fazem com que os programas produzam resultados incorretos sem travar, desencadear um erro ou deixar qualquer rastro visível.
A ameaça invisível dentro dos chips modernos
No centro da preocupação estão os defeitos de silício em CPUs, GPUs e aceleradores de IA. Esses defeitos podem se originar durante o projeto e fabricação do chip ou até mesmo se desenvolver posteriormente devido ao envelhecimento ou a fatores ambientais. Embora os fabricantes detectem a maioria das falhas, mesmo os testes de produção mais rigorosos só conseguem detectar cerca de 95% a 99% dos defeitos modelados. Alguns chips defeituosos inevitavelmente chegam ao campo.
Em certos casos, esses defeitos levam a falhas visíveis, como falhas no sistema. Mas mais preocupantes são os erros silenciosos. Aqui, uma porta lógica ou unidade aritmética com defeito pode produzir um valor errado durante a execução. Se esse valor se propagar pelo programa sem acionar mecanismos de detecção, o sistema conclui a tarefa e retorna uma saída incorreta – sem nenhuma indicação de que algo deu errado.
Durante décadas, muitos acreditaram que os SDC eram acontecimentos raros, quase míticos. No entanto, os principais operadores de hiperescala, incluindo Meta, Google e Alibaba, divulgaram que cerca de uma em cada 1.000 CPUs nas suas frotas pode produzir corrupções silenciosas sob certas condições. Preocupações semelhantes foram relatadas em GPUs e aceleradores de IA.
A correção é uma propriedade basic da computação. Seja no processamento de transações financeiras, na execução de inferências de IA ou no gerenciamento de infraestrutura, espera-se que os sistemas forneçam resultados precisos dentro de restrições de tempo estritas.
A corrupção silenciosa mina essa confiança. Ao contrário das falhas, que são imediatamente visíveis e prontamente investigadas, os SDCs alteram silenciosamente os resultados. Em knowledge facilities que operam milhões de núcleos, mesmo uma pequena taxa de defeitos pode se traduzir em centenas de resultados incorretos de programas por dia.
A escala da computação moderna intensifica o problema
Grandes arquiteturas paralelas, como GPUs e aceleradores de IA, contêm milhares de unidades aritméticas. Quanto mais componentes um sistema incluir, maior será a probabilidade estatística de que alguns sejam defeituosos.
Medir diretamente os SDCs é quase impossível – por definição, eles são silenciosos. A indústria deve, portanto, estimar as suas taxas e pesar o custo da prevenção. Existem mecanismos de detecção e correção, mas podem aumentar significativamente a área de silício, o consumo de energia e a sobrecarga de desempenho.

Os pesquisadores estão pedindo soluções multicamadas, incluindo testes de fabricação aprimorados, monitoramento em nível de frota em knowledge facilities, modelos de estimativa de falhas mais inteligentes e abordagens de co-design de {hardware} e software program que contenham erros antes que eles se propaguem.
À medida que os sistemas informáticos se tornam maiores e mais rápidos, o desafio é claro: manter a velocidade e a exatidão sem custos insustentáveis. No que alguns descrevem como uma “Period de Ouro da Complexidade”, garantir que a computação permaneça confiável pode se tornar uma das batalhas de engenharia que definem o setor.












