A quilômetros de distância, através do deserto, a Grande Pirâmide parece uma geometria perfeita e suave – um triângulo elegante apontando para as estrelas. Fique na base, porém, e a ilusão de suavidade desaparece. Você vê blocos enormes e irregulares de calcário. Não é um declive; é uma escada.
Lembre-se disso na próxima vez que ouvir futuristas falando sobre crescimento exponencial.
O cofundador da Intel, Gordon Moore (Lei de Moore), é famoso por ter dito em 1965 que a contagem de transistores em um microchip dobraria a cada ano. Outro executivo da Intel, David Home, revisou posteriormente esta declaração para “o poder computacional dobra a cada 18 meses”. Por um tempo, as CPUs da Intel foram o exemplo dessa lei. Isto é, até que o crescimento no desempenho da CPU se achatasse como um bloco de calcário.
Se você diminuir o zoom, porém, o próximo bloco de calcário já estava lá – o crescimento na computação simplesmente mudou das CPUs para o mundo das GPUs. Jensen Huang, CEO da Nvidia, jogou um jogo longo e saiu vencedor, construindo seus próprios trampolins inicialmente com jogos, depois com visão computacional e, recentemente, com IA generativa.
A ilusão de um crescimento suave
O crescimento da tecnologia está repleto de sprints e estagnações, e a geração AI não está imune. A onda atual é impulsionada pela arquitetura do transformador. Para citar o presidente e cofundador da Anthropic, Dario Amodei: “O exponencial continua até que isso não acontece. E todos os anos pensamos: ‘Bem, não pode ser que as coisas continuem no exponencial’ – e todos os anos isso acontece.”
Mas assim que a CPU estagnou e as GPUs assumiram a liderança, estamos vendo sinais de que o crescimento do LLM está mudando paradigmas novamente. Por exemplo, no last de 2024, DeepSeek surpreendeu o mundo ao treinar um modelo de classe mundial com um orçamento incrivelmente pequeno, em parte usando a técnica MoE.
Você se lembra onde viu recentemente essa técnica ser mencionada? Comunicado de imprensa Rubin da Nvidia: A tecnologia inclui “…as últimas gerações da tecnologia de interconexão Nvidia NVLink… para acelerar IA de agência, raciocínio avançado e inferência de modelo MoE em grande escala com custo até 10x menor por token.”
Jensen sabe que alcançar o cobiçado crescimento exponencial na computação não vem mais de pura força bruta. Às vezes você precisa mudar totalmente a arquitetura para colocar o próximo trampolim.
A crise de latência: onde Groq se encaixa
Esta longa introdução nos leva ao Groq.
Os maiores ganhos nas capacidades de raciocínio da IA em 2025 foram impulsionados pela “computação do tempo de inferência” – ou, em termos leigos, “deixar o modelo pensar por um período de tempo mais longo”. Mas tempo é dinheiro. Consumidores e empresas não gostam de esperar.
Groq entra em cena aqui com sua inferência na velocidade da luz. Se você reunir a eficiência arquitetônica de modelos como DeepSeek e o rendimento absoluto do Groq, terá inteligência de ponta ao seu alcance. Ao executar a inferência com mais rapidez, você pode “superar” os modelos competitivos, oferecendo um sistema “mais inteligente” aos clientes sem a penalidade do atraso.
Do chip common à otimização de inferência
Na última década, a GPU tem sido o martelo common para todos os pregos de IA. Você usa H100s para treinar o modelo; você usa H100s (ou versões reduzidas) para executar o modelo. Mas à medida que os modelos mudam para o pensamento do “Sistema 2” – onde a IA raciocina, se autocorrige e itera antes de responder – a carga de trabalho computacional muda.
O treinamento requer força bruta paralela massiva. A inferência, especialmente para modelos de raciocínio, requer processamento sequencial mais rápido. Ele deve gerar tokens instantaneamente para facilitar cadeias complexas de pensamento sem que o usuário espere minutos por uma resposta. A arquitetura LPU (Unidade de Processamento de Linguagem) da Groq elimina o gargalo de largura de banda de memória que assola as GPUs durante a inferência de pequenos lotes, proporcionando inferência extremamente rápida.
O motor para a próxima onda de crescimento
Para o C-Suite, esta convergência potencial resolve a crise de latência do “tempo de reflexão”. Considere as expectativas dos agentes de IA: queremos que eles reservem voos de forma autônoma, codifiquem aplicativos inteiros e pesquisem precedentes legais. Para fazer isso de forma confiável, um modelo pode precisar gerar 10.000 “tokens de pensamento” internos para verificar seu próprio trabalho antes de enviar uma única palavra ao usuário.
-
Em uma GPU padrão: 10.000 fichas de pensamento podem levar de 20 a 40 segundos. O usuário fica entediado e vai embora.
-
No Groq: Essa mesma cadeia de pensamento acontece em menos de 2 segundos.
Se a Nvidia integrar a tecnologia da Groq, eles resolverão o problema de “esperar o robô pensar”. Eles preservam a magia da IA. Assim como eles passaram da renderização de pixels (jogos) para a renderização de inteligência (geração AI), eles agora passariam para a renderização raciocínio em tempo actual.
Além disso, isso cria um formidável fosso de software program. O maior obstáculo da Groq sempre foi a pilha de software program; O maior ativo da Nvidia é CUDA. Se a Nvidia envolver seu ecossistema em torno do {hardware} da Groq, eles efetivamente cavarão um fosso tão largo que os concorrentes não conseguirão cruzá-lo. Eles ofereceriam a plataforma common: o melhor ambiente para treinar e o ambiente mais eficiente para operar (Groq/LPU).
Considere o que acontece quando você combina esse poder bruto de inferência com um modelo de código aberto de próxima geração (como o suposto DeepSeek 4): você obtém uma oferta que rivalizaria com os modelos de fronteira atuais em custo, desempenho e velocidade. Isso abre oportunidades para a Nvidia, desde entrar diretamente no negócio de inferência com sua própria oferta de nuvem, até continuar a alimentar um número crescente de clientes em crescimento exponencial.
O próximo passo na pirâmide
Voltando à nossa metáfora inicial: o crescimento “exponencial” da IA não é uma linha suave de FLOPs brutos; é uma escada de gargalos sendo destruída.
-
Bloco 1: Não conseguimos calcular rápido o suficiente. Solução: A GPU.
-
Bloco 2: Não conseguimos treinar fundo o suficiente. Solução: Arquitetura do transformador.
-
Bloco 3: Não podemos “pensar” rápido o suficiente. Solução: LPU de Groq.
Jensen Huang nunca teve medo de canibalizar as suas próprias linhas de produtos para ser dono do futuro. Ao validar o Groq, a Nvidia não estaria apenas comprando um chip mais rápido; eles estariam trazendo inteligência de próxima geração para as massas.
Andrew Filev, fundador e CEO da Zencoder
Bem-vindo à comunidade VentureBeat!
Nosso programa de visitor posts é onde especialistas técnicos compartilham insights e fornecem análises profundas, neutras e não adquiridas, sobre IA, infraestrutura de dados, segurança cibernética e outras tecnologias de ponta que moldam o futuro das empresas.
Leia mais do nosso programa de visitor publish – e confira nosso diretrizes se você estiver interessado em contribuir com um artigo de sua autoria!











