Ho speso €1.700 per far girare un LLM sul mio server — e i llm locale costi reali non sono quelli che leggi online. La RTX 3090 usata, il case, l'alimentatore, le ventole che sembrano un aereo al decollo. Il tutto per scoprire che la bolletta mi costa €54 al mese — solo di corrente — e che ChatGPT gratis mi dava risposte migliori su metà dei task. Ma sull'altra metà, il locale vince senza discussione.
I costi reali di un LLM locale li leggi sempre calcolati con la tariffa elettrica americana — $0,18 per kWh, che bello. In Italia paghiamo 0,30-0,40 €/kWh tutto compreso. Il break-even raddoppia. E nessuno ne parla.
Se stai valutando i llm locale costi con numeri reali, europei, senza fuffa — questo è il pezzo giusto. E se hai già configurato Ollama, sai già che la parte software è la più facile dell'equazione.
I llm locale costi nel 2026: cosa compri davvero
Il floor per un PC capace di inference locale decente è $1.700. Non lo dico io — lo dice chiunque abbia provato a costruirne uno nel 2026 con la VRAM necessaria. Sotto quella cifra, compri frustrazione.
Il collo di bottiglia dell'inference locale hardware ha un nome: VRAM. C'è un cliff brutale tra 8GB e 16GB — un modello 27B quantizzato a Q4 passa da 3,6 tok/s a oltre 20 tok/s quando tutto il modello sta in memoria video. Non è un miglioramento lineare. È un salto di 10x. "Whether the model fits entirely in VRAM creates a discontinuous jump in performance" — non è un modo di dire, è fisica.
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Intelligenza Artificiale
Agente AI self-hosted? OpenHuman lo promette, il suo .env dice no
OpenHuman si vende agente AI self-hosted privacy-first, ma il .env manda chat e integrazioni nel cloud: cosa regge come assistente AI locale open source.
Modelli
8B full, 14B Q4
Tok/s18-30
Energia/mese (IT)€3-5
TierEntry
HardwarePC + RTX 3090 usata 24GB
Costo€1.700-2.000
Modelli27B Q4, 70B Q3 (lento)
Tok/s20-45
Energia/mese (IT)€54-65
TierPower
HardwarePC + 2x RTX 3090 NVLink 48GB
Costo€2.800-3.500
Modelli70B Q4 stabile
Tok/s15-25
Energia/mese (IT)€100-130
TierPremium
HardwarePC + RTX 5090 32GB
Costo€4.000-4.800
Modelli40B Q4, 70B Q3
Tok/s30-52
Energia/mese (IT)€65-80
TierSilent
HardwareMac Studio M4 Ultra 192GB
Costo€5.000+
Modelli70B Q4, 405B Q2
Tok/s10-20
Energia/mese (IT)€5-8
Tier
Hardware
Costo
Modelli
Tok/s
Energia/mese (IT)
Nano
Mac Mini M4 Pro 24GB
€1.399
8B full, 14B Q4
18-30
€3-5
Entry
PC + RTX 3090 usata 24GB
€1.700-2.000
27B Q4, 70B Q3 (lento)
20-45
€54-65
Power
PC + 2x RTX 3090 NVLink 48GB
€2.800-3.500
70B Q4 stabile
15-25
€100-130
Premium
PC + RTX 5090 32GB
€4.000-4.800
40B Q4, 70B Q3
30-52
€65-80
Silent
Mac Studio M4 Ultra 192GB
€5.000+
70B Q4, 405B Q2
10-20
€5-8
La RTX 3090 usata resta la regina del rapporto VRAM-per-dollaro: 24GB GDDR6X a $800-1.064 su eBay. Ma il prezzo è salito del 26,7% da novembre 2025. L'AI si mangia le GPU — ne avevamo parlato qui — e il mercato dell'usato lo riflette.
Credit: Patshead.com Blog
E poi c'è il DDR5. I prezzi spot sono esplosi del 307% tra settembre e dicembre 2025 — un kit 32GB entry-level oggi sta sopra i $300. Lo shortage è strutturale, gli analisti lo danno fino al Q4 2027. Ogni mese che aspetti, il build costa di più.
Cosa offrono i free tier nel 2026 (e cosa ti tolgono)
Il cloud gratuito non è gratis. È un modello di business.
ChatGPT free ti dà 10 messaggi ogni 5 ore su GPT-5.2 Instant, poi ti butta su Mini. Context di 16K token — contro i 128K del piano Pro. Niente Thinking, niente Deep Research, niente Codex, niente Sora. E da febbraio 2026, ads nel free tier. I tuoi prompt alimentano il training dei modelli successivi.
Claude free: 10-20 messaggi ogni 5 ore su Sonnet. 200K di context — generoso. Ma niente Opus, niente Claude Code, niente Research. E throttling nei momenti di picco, quando ti serve di più.
Gemini? Cinque prompt al giorno. Cinque. Sulla web app, intendo. Via API, 20 request giornaliere con Flash only — Pro è sparito dal free tier. Google ha deciso che la generosità del 2024 era un errore.
ServizioChatGPT
Messaggi free10 / 5 ore
Context16K
ModelloGPT-5.2 Instant → Mini
Limiti nascostiAds, dati per training
ServizioClaude
Messaggi free10-20 / 5 ore
Context200K
ModelloSonnet
Limiti nascostiThrottling peak, no Opus
ServizioGemini
Messaggi free5 / giorno
ContextN/D
ModelloFlash only
Limiti nascostiNo Pro, API 20 req/giorno
Servizio
Messaggi free
Context
Modello
Limiti nascosti
ChatGPT
10 / 5 ore
16K
GPT-5.2 Instant → Mini
Ads, dati per training
Claude
10-20 / 5 ore
200K
Sonnet
Throttling peak, no Opus
Gemini
5 / giorno
N/D
Flash only
No Pro, API 20 req/giorno
Se fai meno di 10 query al giorno e non ti importa della privacy, questi limiti bastano. Ma se lavori con codice proprietario, documenti legali, dati sensibili — stai consegnando tutto a server che non controlli, in giurisdizioni che non sono la tua.
Il gap di qualità: 5-7 punti che pesano (o no)
Ecco l'obiezione più forte contro il locale: i modelli open source restano indietro.
Sull'intelligence index, il miglior modello open — GLM-5 — segna 82 contro l'86 di Gemini 3.1 Pro. Su MMLU: 96 vs 99. Su SWE-bench Verified, il gap è netto: 62% vs 84%. Sono 5-7 punti che fanno la differenza quando chiedi reasoning complesso, matematica avanzata, debug di sistemi distribuiti.
Ma il quadro non è così semplice.
Su LiveCodeBench, i modelli open battono Claude: 85 contro 76. DeepSeek V3.2 offre circa il 78% della qualità di GPT-5.4 a una frazione del costo API. Qwen3 32B è un mostro sul coding. Per chi ha esplorato le possibilità dell'NPU Ryzen per inference locale, questi modelli girano già oggi su hardware consumer.
Il gap reale tra open e closed si è chiuso da 30 punti nel 2023 a 5-7 nel 2026. Non è scomparso. Ma per l'80% dei task quotidiani — scrivere codice, riassumere documenti, analizzare log, generare testo — il locale è sufficiente. Per il 20% che richiede reasoning frontier, il cloud resta necessario.
LLM locale vs cloud: il break-even che non torna
Questo è il cuore dell'articolo — la parte dove i numeri americani crollano a contatto con la realtà italiana.
Scenario: inference locale con RTX 3090 e llm locale costi reali
Una RTX 3090 consuma 350-365W sotto carico, 18W in idle. Per inference continua — diciamo 300W di media — sono 216 kWh al mese. Con la tariffa ARERA netta a 0,137 €/kWh sembra gestibile. Ma la bolletta reale, con oneri di sistema, trasporto, accise e IVA, arriva a 0,30-0,40 €/kWh.
Energia mensile (24/7): €54-65/mese → €648-780/anno
Costo primo anno: €2.348-2.480
Costo secondo anno cumulativo: €2.996-3.260
Contro le API cloud a pagamento — uso intensivo da ~$200/mese — il break-even arriva in circa 1,5-2 anni. Non malissimo.
Contro il free tier?
Mai. Il free tier costa zero euro. Puoi calcolare il break-even finché vuoi, ma zero è zero. Su un piano puramente economico, il locale perde sempre contro il gratuito.
L'alternativa silenziosa: Apple Silicon per ai locale homelab
Il Mac Mini M4 Pro cambia i conti. 30-40W in inference, ~€3-5 al mese di corrente. Fa girare un 8B a 30 tok/s, un 32B a 12 tok/s. Costa €1.399 e non sveglia i vicini.
Il compromesso: meno VRAM (24GB unificata), modelli più piccoli, velocità inferiore a una RTX 4090 (che fa 75 tok/s su un 8B). Ma se il tuo caso d'uso è un Qwen 14B quantizzato per coding assistance, il Mac Mini è la scelta più razionale per un homelabber europeo. I costi energetici italiani lo premiano.
Il costo che non è nel prezzo
C'è chi guarda solo i numeri e conclude che il locale è uno spreco. Mehul Gupta su Medium lo dice senza filtri: "Sometimes it feels like debugging your OS more than running AI." E ha ragione — il setup non è banale. CUDA, dipendenze Python, driver, quantizzazione. "Real-time chat? Forget it" per i modelli più grandi.
Ma il prezzo del cloud gratuito non è mai stato solo economico.
"Political sensitivities have introduced layers of ideological censorship and over-refusal" — scrive p4sc4l su Substack, analizzando i pattern di censura nei modelli commerciali. Non è complottismo: è documentato. Modelli di provenienza diversa censurano cose diverse. Quelli occidentali hanno una soft censorship su temi sensibili, quelli cinesi e russi su politica. I modelli locali, specialmente le versioni "abliterated" con i safety layer rimossi, non censurano niente.
Poi c'è il GDPR. Il self-hosting elimina il rischio di trasferimento dati extra-UE — compliance nativa, senza DPA da firmare, senza fidarsi delle promesse di un'azienda californiana. Con l'AI Act in vigore dal 2 agosto 2026, i modelli open source sotto le soglie di rischio non richiedono conformità specifica. Vantaggio concreto per chi deploya in casa.
Ho fatto girare DeepSeek V3.2 sul mio homelab per tre settimane. Per i task quotidiani — refactoring, analisi log, generazione di config Ansible — non ho sentito la mancanza di Claude o ChatGPT. Per le domande complesse, quelle dove serve reasoning a catena lunga, ho dovuto tornare al cloud. Non per scelta ideologica. Perché il risultato locale era peggiore. Ed è stato il momento in cui ho capito che la risposta non è "locale O cloud" — è sapere quando usare cosa.
Quando il locale ha senso (e quando no)
Dopo mesi di test, la mappa è abbastanza chiara.
Il locale vince quando:
Privacy reale — dati medici, legali, finanziari, codice proprietario che non deve uscire dalla tua rete
Volume — oltre 50 query al giorno, batch processing su dataset. Il free tier ti strangola dopo 10 messaggi
Offline — zero dipendenza da internet, da server altrui, da policy che cambiano
Libertà — nessuna censura, modelli abliterated, output non filtrato
Educazione — capire l'AI dall'interno, non come consumatore ma come operatore
Il cloud vince quando:
Uso occasionale — meno di 10 query al giorno, il free tier basta
Reasoning frontier — task dove servono GPT-5 o Opus, e nessun modello open si avvicina
Budget sotto €1.700 — non ha senso costruire un PC che non raggiunge la soglia minima di VRAM
Costo energia proibitivo — €54-65/mese di corrente in Italia è un secondo abbonamento
La quota di inference AI enterprise on-premise è passata in modo significativo tra il 2023 e il 2026, trainata da esigenze di privacy, latenza e controllo dei costi. Non è un trend da homelabber romantici — è un movimento strutturale. Chi gestisce dati sensibili sta portando tutto in casa. Chi testa modelli come Gemma 4 su hardware locale sta già nell'onda giusta.
Credit: Ollama
La bolletta non mente
Il cloud gratuito è il crack dell'AI: la prima dose è gratis, il prezzo vero è la dipendenza. I tuoi prompt diventano dati di training. Le tue abitudini diventano metriche di engagement. I tuoi documenti finiscono su server che non puoi auditare.
Ma il locale è il vinile dell'AI: romantico, costoso, e alla fine ascolti comunque Spotify per le playlist del lunedì mattina.
Chi dice "solo locale" o "solo cloud" sta vendendo una narrativa. La risposta è sporca, ibrida, poco elegante: locale per la privacy, il volume e la libertà. Cloud per il reasoning che il tuo hardware non può ancora toccare. E la disciplina di sapere quando stai pagando — in euro, in dati, o in entrambi.