Stai pagando 20 dollari al mese per ChatGPT Plus. I tuoi prompt finiscono nei dataset di addestramento di OpenAI. E ogni volta che i loro server vanno giù, il tuo workflow si ferma.
C'è un'alternativa che nel 2026 è esplosa nelle community tech: far girare un LLM sul tuo hardware, senza internet, senza abbonamenti, senza inviare una sola riga di dati a nessuno. E la parte migliore? L'installazione richiede 10 minuti.
Perché nel 2026 e non prima
Tre cambiamenti hanno reso il tutto possibile:
- Modelli piccoli ma potenti. Llama 3 8B offre prestazioni che due anni fa richiedevano modelli 10 volte più grandi. I modelli "small" del 2026 battono i "large" del 2024.
- L'hardware consumer basta. Un PC con 32 GB di RAM può far girare modelli da 7-13 miliardi di parametri. Non serve una GPU da migliaia di euro.
- Ollama ha reso tutto banale. Installazione ridotta a un singolo comando. Niente compilazione, niente configurazione CUDA, niente dipendenze infernali.

Cosa ti serve
Configurazione minima (solo CPU — ~150 euro usato)
- 16 GB di RAM (32 GB consigliati)
- 50 GB di spazio disco libero
- Linux, macOS o Windows con WSL2
- Modelli: Llama 3.2 3B, Phi-3 Mini
Configurazione consigliata (con GPU — ~400 euro)
- GPU NVIDIA con almeno 8 GB VRAM (RTX 3060 o 4060)
- 32 GB di RAM di sistema
- SSD NVMe per caricamento modelli veloce
- Modelli: Llama 3 8B, Mistral 7B, DeepSeek-R1 8B




