O M1 MacBook Professional é um dispositivo antigo, mas ainda capaz em 2026.
Kyle Kucharski/ZDNET
Siga ZDNET: Adicione-nos como fonte preferencial no Google.
Principais conclusões da ZDNET
- Ollama facilita bastante o obtain de LLMs de código aberto.
- Mesmo modelos pequenos podem funcionar dolorosamente devagar.
- Não tente fazer isso sem uma nova máquina com 32 GB de RAM.
Como repórter que cobre inteligência synthetic há mais de uma década, sempre soube que administrar inteligência synthetic traz todos os tipos de desafios de engenharia da computação. Por um lado, os grandes modelos de linguagem ficam cada vez maiores e exigem cada vez mais memória DRAM para executar os “parâmetros” ou “pesos neurais” de seus modelos.
Também: Como instalar um LLM no MacOS (e por que você deveria)
Eu sabia de tudo isso, mas queria sentir em primeira mão. Eu queria executar um modelo de linguagem grande em meu computador doméstico.
Agora, baixar e executar um modelo de IA pode envolver muito trabalho para configurar o “ambiente”. Então, inspirado pela cobertura do meu colega Jack Wallen sobre a ferramenta de código aberto Ollama, baixei o binário MacOS do Ollama como minha porta de entrada para IA native.
Ollama é relativamente fácil de usar e fez um ótimo trabalho de integração com LangChain, Codex e muito mais, o que significa que está se tornando uma ferramenta para reunir muitos aspectos da IA, o que é empolgante.
Razões para mantê-lo native
Executar LLMs localmente, em vez de apenas digitar ChatGPT ou Perplexity on-line, tem muito apelo não apenas para programadores, mas para qualquer profissional da informação.
Primeiro, como profissional da informação, você será mais desejável no mercado de trabalho se puder fazer algo como baixar um modelo e executá-lo, em vez de digitar no immediate on-line, como todo usuário gratuito do ChatGPT. Estamos falando de desenvolvimento profissional básico aqui.
Em segundo lugar, com uma instância native de um LLM, você pode evitar que seus dados confidenciais saiam de sua máquina. Isso deveria ser de importância óbvia para qualquer profissional da informação, não apenas para codificadores. No meu caso, o objetivo do meu projeto period usar modelos locais como forma de extrair meu próprio acervo de artigos ao longo dos anos, como uma espécie de relatório sobre o que escrevi, incluindo coisas que poderia ter esquecido. Gostei da ideia de manter todos os arquivos locais em vez de enviá-los para um serviço em nuvem.
Também: Tentei codificar um aplicativo com vibe como iniciante – aqui está o que Cursor e Replit me ensinaram
Terceiro, você pode evitar taxas cobradas pela OpenAI, Google, Anthropic e outros. Como escrevi recentemente, os preços deverão subir para o uso de LLMs on-line, então agora é um bom momento para pensar em maneiras de fazer a maior parte do seu trabalho offline, em sua própria máquina, onde o medidor não está constantemente funcionando.
(Divulgação: Ziff Davis, empresa controladora da ZDNET, entrou com uma ação judicial em abril de 2025 contra a OpenAI, alegando que ela violou os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.)
Quarto, você tem muito mais controle. Por exemplo, se você quiser programar, poderá ajustar os LLMs, conhecido como ajuste fino, para obter resultados mais focados. E você pode usar várias ferramentas instaladas localmente, como LangChain, ferramenta Claude Code da Anthropic, ferramenta de codificação Codex da OpenAI e muito mais.
Também: Por que você pagará mais pela IA em 2026 e três dicas para economizar dinheiro para experimentar
Mesmo que você queira apenas realizar tarefas de trabalho da informação, como gerar relatórios, fazer isso com um cache native de documentos ou um banco de dados native pode ser feito com maior controle do que enviar coisas para o bot.
Naked-metal mínimo
Comecei esse experimento com uma máquina mínima, no que diz respeito ao que é necessário para executar um LLM. Eu queria descobrir o que aconteceria se alguém que não compra constantemente novas máquinas tentasse fazer isso em casa, no mesmo computador que usa para as tarefas diárias.
Meu MacBook Professional tem três anos e 16 gigabytes de RAM e um disco rígido de terabyte com três quartos da capacidade, rodando não o MacOS mais recente, mas o MacOS Sonoma. É o modelo 2021, número do modelo MK193LL/Ae, portanto, embora fosse o high de linha quando o comprei na Greatest Purchase em janeiro de 2023 em uma liquidação, já estava se tornando o melhor modelo de ontem naquela época.
Também: 5 razões pelas quais uso IA native em meu desktop – em vez de ChatGPT, Gemini ou Claude
Eu sei, eu sei: isso está além da vida útil típica das máquinas e além do cronograma de depreciação de qualquer pessoa. No entanto, o MacBook foi uma grande atualização na época e continuou a funcionar perfeitamente diariamente para as tarefas típicas do trabalhador da informação: calendário, toneladas de e-mails, toneladas de websites, pós-produção de vídeo, gravação de áudio de podcast e muito mais. Eu nunca tenho reclamações. Ei, se não está quebrado, certo?
Portanto, a questão period: como essa máquina venerável, mas ainda poderosa, lidaria com um novo tipo de carga de trabalho muito diferente?
Iniciando Ollama
A tela inicial do Ollama se parece com o ChatGPT, com um immediate amigável para digitar, um sinal de “mais” para fazer add de um documento e um menu suspenso de modelos que você pode instalar localmente, incluindo alguns populares como o Qwen.
Se você começar a digitar no immediate, o Ollama tentará baixar automaticamente qualquer modelo que esteja sendo exibido no menu suspenso. Portanto, não digite nada, a menos que queira usar a roleta modelo.
Em vez disso, examinei os modelos na lista suspensa e percebi que alguns desses modelos não eram locais – eles estavam na nuvem. Ollama executa um serviço em nuvem se você quiser a infraestrutura dele em vez da sua. Isso pode ser útil se você quiser usar modelos muito maiores que sobrecarregariam excessivamente sua própria infraestrutura.
Por a página de preçosOllama oferece algum acesso à nuvem na conta gratuita, com a capacidade de executar vários modelos de nuvem cobertos pelo plano “Professional” por US$ 20 por mês, e ainda mais uso no plano “Max” por US$ 100 por mês.
Também: Este aplicativo torna muito fácil usar a IA native do Ollama em dispositivos MacOS
Mantendo as opções de execução native, decidi dar uma olhada a lista mais ampla de modelos no diretório de modelos mantido por Ollama.
Ao acaso, escolhi o glm-4.7-flash, da startup chinesa de IA Z.ai. Pesando 30 bilhões de “parâmetros”, ou pesos neurais, o GLM-4.7-flash seria um modelo de linguagem “pequeno” e grande para os padrões atuais, mas não minúsculo, já que existem modelos de código aberto com menos de um bilhão de parâmetros. (Um bilhão de parâmetros period grande, não faz muito tempo!)
O diretório fornece os comandos do terminal para baixar o modelo escolhido do terminal Mac, bastando copiar e colar no immediate, como:
ollama execute glm-4.7-flash
Esteja atento ao espaço em disco. Glm-4.7-flash pesa 19 gigabytes de uso de disco e lembre-se, isso é pequeno!
Na minha experiência, o obtain de modelos parece bastante rápido, embora não seja extremamente rápido. Em um modem a cabo com velocidade de gigabit para meu escritório em casa fornecido pela Spectrum na cidade de Nova York, o modelo estava baixando a uma taxa de 45 megabytes por segundo em um ponto, embora mais tarde tenha caído para uma taxa de transferência mais lenta.
Conhecendo o modelo
Minha primeira pergunta foi bastante direta: “Que tipo de modelo de linguagem grande você é?”
Fiquei observando por um tempo enquanto os primeiros personagens se materializavam em resposta: “[Light bulb icon] Pensando – Deixe-me analisar o que me torna um” e foi isso.
Também: Minha ferramenta LLM preferida acaba de lançar um aplicativo tremendous simples para Mac e PC para IA native – por que você deveria experimentá-lo
Dez minutos depois, não tinha ido muito longe.
Deixe-me analisar o que me torna um grande modelo de linguagem e como explicar isso ao usuário.
Primeiro, preciso considerar minha natureza elementary como sistema de IA. Devo explicar que fui projetado para compreender e gerar a linguagem humana por meio de padrões em grandes conjuntos de dados. A chave é ser claro
E tudo no Mac ficou visivelmente lento.
Quarenta e cinco minutos depois, glm-4.7-flash ainda estava produzindo pensamentos sobre o pensamento: “Deixe-me estruturar esta explicação para primeiro afirmar claramente…” e assim por diante.
Preso em rastejamento imediato
Uma hora e 16 minutos depois – o modelo “pensou” por 5.197,3 segundos – finalmente tive uma resposta à minha pergunta sobre que tipo de modelo de linguagem glm-4.7-flash period. A resposta acabou não sendo tão interessante apesar de todo o tempo gasto. Não me disse muito sobre o glm que eu não pudesse ter adivinhado sozinho, nem nada significativo sobre a diferença entre o glm e outros grandes modelos de linguagem:
Achei que já tinha terminado o glm neste momento. Infelizmente, Ollama não fornece instruções para remover um modelo depois de instalado localmente. Os modelos são mantidos em uma pasta oculta “.ollama” no diretório do usuário atual no MacOS, dentro de outra pasta chamada “fashions”. Dentro da pasta de modelos há duas pastas, “blobs” e “manifests”. A maior parte de um modelo está na pasta blobs. Dentro dos manifestos há uma pasta “biblioteca” contendo uma pasta com o nome de cada modelo que você baixou e, dentro dela, uma pasta “mais recente”.
Usando o terminal, apaguei o conteúdo dos blobs e apaguei o conteúdo de cada pasta do modelo, e isso resolveu o problema. (Jack mais tarde me informou que o comando do terminal para se livrar de qualquer modelo é “ollama rm
Jack também recomendou o modelo de código aberto recente da OpenAI, gpt-oss, no sabor de 20 bilhões de parâmetros, “20b”, que ele disse ser notavelmente mais rápido executado localmente do que outros que ele experimentou. Então, eu fui próximo a isso no diretório.
Também: Esta é a IA native mais rápida que experimentei e não chega nem perto – como obtê-la
Desta vez, após cerca de seis minutos, gpt-oss:20b produziu – em um ritmo não de caracol, mas também não rápido – a resposta de que é “ChatGPT, desenvolvido pela família GPT-4 da OpenAI” e assim por diante.
Essa resposta foi seguida por uma bela tabela de detalhes. (Estranhamente, gpt-oss:20b me disse que tinha “aproximadamente 175 bilhões de parâmetros”, o que sugere que gpt-oss:20b não compreende inteiramente sua própria identidade 20b.)
De qualquer forma, isso foi bom para um simples immediate. Mas já estava claro que eu teria problemas com qualquer outra coisa mais ambiciosa. A sensação de esperar pela resposta foi lenta o suficiente – uma espécie de arrepio imediato, pode-se dizer – que não me atrevi a acrescentar mais complexidade, como carregar um tesouro inteiro de escritos.
Vamos precisar de uma máquina mais nova
O serviço on-line ChatGPT actual da OpenAI (executando GPT5.2) me diz que uma configuração mínima para um computador executando gpt-oss:20b é na verdade 32 gigabytes de DRAM. O silício M1 Professional do MacBook tem uma GPU integrada, e ChatGPT apontou com aprovação que Ollama forneceu à versão gpt-oss:20b suporte para a GPU Mac, uma biblioteca conhecida como “backend llama.cpp”.
Também: Tentei o único navegador agente que executa IA native – e encontrei apenas uma desvantagem
Então, tudo deve ficar bem, mas eu realmente preciso de mais DRAM do que apenas 16 GB. E preciso trocar o M1, agora com cinco anos, por um M4 ou M5. É bastante fascinante para mim, com três décadas escrevendo sobre computadores, que para um profissional da informação estejamos falando de 32 gigabytes como configuração mínima razoável.
Como mencionei recentemente, o preço da DRAM está disparando porque todos esses information facilities em nuvem estão consumindo cada vez mais DRAM para executar grandes modelos de linguagem. Então, sou eu contra os fornecedores de nuvem, você poderia dizer, e provavelmente usarei o cartão de crédito para trocar por um novo computador. (A Apple me dará cerca de US$ 599 pelo meu MacBook M1 como troca.)
Embora meu esforço incipiente native em Ollama não tenha produzido sucesso, ele me deu uma nova apreciação de como a IA exige muita memória. Eu sempre soube disso por causa de anos de reportagens sobre IA, mas agora sinto isso em meus ossos, aquela sensação de que a resposta ao immediate demora uma eternidade para rolar pela tela.











