Stai pagando 20 dollari al mese per ChatGPT Plus. I tuoi prompt finiscono nei dataset di addestramento di OpenAI. E ogni volta che i loro server vanno giù, il tuo workflow si ferma.

C'è un'alternativa che nel 2026 è esplosa nelle community tech: far girare un LLM sul tuo hardware, senza internet, senza abbonamenti, senza inviare una sola riga di dati a nessuno. E la parte migliore? L'installazione richiede 10 minuti.

Perché nel 2026 e non prima

Tre cambiamenti hanno reso il tutto possibile:

Modelli piccoli ma potenti. Llama 3 8B offre prestazioni che due anni fa richiedevano modelli 10 volte più grandi. I modelli "small" del 2026 battono i "large" del 2024.
L'hardware consumer basta. Un PC con 32 GB di RAM può far girare modelli da 7-13 miliardi di parametri. Non serve una GPU da migliaia di euro.
Ollama ha reso tutto banale. Installazione ridotta a un singolo comando. Niente compilazione, niente configurazione CUDA, niente dipendenze infernali.

Scheda grafica NVIDIA per accelerazione AI — Una GPU dedicata accelera drasticamente l'inferenza dei modelli locali

Cosa ti serve

Configurazione minima (solo CPU — ~150 euro usato)

16 GB di RAM (32 GB consigliati)
50 GB di spazio disco libero
Linux, macOS o Windows con WSL2
Modelli: Llama 3.2 3B, Phi-3 Mini

Configurazione consigliata (con GPU — ~400 euro)

GPU NVIDIA con almeno 8 GB VRAM (RTX 3060 o 4060)
32 GB di RAM di sistema
SSD NVMe per caricamento modelli veloce
Modelli: Llama 3 8B, Mistral 7B, DeepSeek-R1 8B

Configurazione avanzata (per modelli grandi — ~800 euro)

GPU NVIDIA con 24 GB VRAM (RTX 3090, 4090)
64+ GB di RAM
Modelli: Llama 3.3 70B quantizzato, Qwen 2.5 72B, DeepSeek-R1 70B

Nota: Senza GPU i modelli girano su CPU, 5-10 volte più lento. Usabile per domande singole, non per conversazioni fluide. Una GPU NVIDIA è il singolo upgrade con più impatto.

Installazione in 4 passi

Passo 1 — Installa Ollama

Su Linux, un solo comando:

Codice su terminale con sfondo scuro — Ollama si gestisce interamente da terminale: pochi comandi per un'AI tutta tua

curl -fsSL https://ollama.com/install.sh | sh

Si installa come servizio di sistema e parte in automatico. Su macOS e Windows c'è l'installer grafico sul sito ufficiale.

Passo 2 — Scarica un modello

ollama pull llama3:8b

Download di circa 4,7 GB. Puoi testarlo subito:

ollama run llama3:8b

Hai appena avviato un LLM sul tuo computer. Nessun account, nessun token API, nessun dato inviato fuori.

Passo 3 — Aggiungi l'interfaccia web

Open WebUI ti dà un'interfaccia identica a ChatGPT. Con Docker:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Apri http://localhost:3000 nel browser, crea un account locale, e hai la tua ChatGPT personale.

Passo 4 — Accesso remoto (opzionale)

Con Tailscale installato sul server e sui tuoi dispositivi, raggiungi Open WebUI da qualsiasi luogo — senza aprire porte, senza DNS dinamico, con crittografia end-to-end.

Quale modello scegliere

Non tutti i modelli sono uguali. Ecco una guida rapida:

Chat generale: Llama 3 8B — miglior equilibrio qualità/velocità.
Programmazione: DeepSeek Coder V2 — ottimizzato per generare e spiegare codice.
Ragionamento complesso: DeepSeek-R1 — eccelle in matematica, logica, analisi multi-step.
Scrittura creativa: Qwen 2.5 72B — il migliore per testi lunghi e sfumati (richiede hardware potente).
Risposte veloci: Phi-3 Mini o Llama 3.2 3B — leggerissimi, rispondono in millisecondi.

I vantaggi che scopri solo dopo

Zero limiti. Niente "hai raggiunto il limite giornaliero". Niente piani premium. Usi il modello quanto vuoi, quando vuoi.
Personalizzazione totale. System prompt custom, documenti nel contesto (RAG), fine-tuning su dati proprietari.
Funziona offline. In aereo, senza WiFi, in ambienti air-gapped. Il tuo assistant risponde sempre.
GDPR nativo. I dati non lasciano mai la tua infrastruttura. Un intero capitolo di compliance risolto.

Quanto costa davvero

Confronto diretto:

ChatGPT Plus: $20/mese = $240/anno. Più API se ne usi.
Setup CPU-only: PC usato ~150 euro + 32 GB DDR4 ~70 euro + elettricità ~2 euro/mese = ~245 euro una tantum.
Setup con GPU: RTX 3060 usata ~200 euro + PC = ~450 euro totali.

In 12-18 mesi il hardware si ripaga. Poi ogni mese risparmiato è puro guadagno. E il modello gira anche quando OpenAI ha un outage.

Il futuro è locale

L'ironia è perfetta: l'industria AI spende miliardi per centralizzare l'intelligenza nei data center — e contemporaneamente produce modelli abbastanza efficienti da girare sotto la tua scrivania.

Ogni trimestre i modelli diventano più piccoli, veloci e capaci. Il trend è inequivocabile: l'AI decentralizzata non è il futuro — è il presente.

La domanda non è se l'AI locale diventerà mainstream. È quanto tempo vuoi ancora aspettare prima di smettere di pagare per qualcosa che puoi avere gratis.

Articoli Correlati

L'AI locale in azienda: cosa fanno davvero i modelli piccoli (1-3B)

Agente AI self-hosted? OpenHuman lo promette, il suo .env dice no

Ollama: la tua AI personale in 10 minuti (gratis e offline)

Commenti (0)

Upgrade rete 2.5G casa nel 2026: switch, NIC e cavi che servono davvero (e quando lasciar perdere)

Resta Aggiornato