8 aprile 2026 · 9 min lettura
Intelligenza ArtificialeDal caso Yellow Tech alle PMI italiane: come l'AI generativa sta automatizzando contratti, fatture e workflow documentali B2B. Stack open source replicabile in homelab con n8n, Ollama e Docling.
Intelligenza ArtificialeChatGPT perde quota, Gemini esplode al 21%, Claude domina l'enterprise. Ma i numeri che contano sono quelli che nessuna classifica include.

Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
MokerLink 2G080110GS unboxing: cosa c'è nella scatola, scheda tecnica completa dello switch unmanaged 8x2.5GbE + 1x10G SFP+. Benchmark iperf3 in arrivo.
Ho speso €1.700 per far girare un LLM sul mio server — e i llm locale costi reali non sono quelli che leggi online. La RTX 3090 usata, il case, l'alimentatore, le ventole che sembrano un aereo al decollo. Il tutto per scoprire che la bolletta mi costa €54 al mese — solo di corrente — e che ChatGPT gratis mi dava risposte migliori su metà dei task. Ma sull'altra metà, il locale vince senza discussione.
I costi reali di un LLM locale li leggi sempre calcolati con la tariffa elettrica americana — $0,18 per kWh, che bello. In Italia paghiamo 0,30-0,40 €/kWh tutto compreso. Il break-even raddoppia. E nessuno ne parla.
Se stai valutando i llm locale costi con numeri reali, europei, senza fuffa — questo è il pezzo giusto. E se hai già configurato Ollama, sai già che la parte software è la più facile dell'equazione.
Il floor per un PC capace di inference locale decente è $1.700. Non lo dico io — lo dice chiunque abbia provato a costruirne uno nel 2026 con la VRAM necessaria. Sotto quella cifra, compri frustrazione.
Il collo di bottiglia dell'inference locale hardware ha un nome: VRAM. C'è un cliff brutale tra 8GB e 16GB — un modello 27B quantizzato a Q4 passa da 3,6 tok/s a oltre 20 tok/s quando tutto il modello sta in memoria video. Non è un miglioramento lineare. È un salto di 10x. "Whether the model fits entirely in VRAM creates a discontinuous jump in performance" — non è un modo di dire, è fisica.
| Tier | Hardware | Costo | Modelli | Tok/s | Energia/mese (IT) |
|---|---|---|---|---|---|
| Nano | Mac Mini M4 Pro 24GB | €1.399 | 8B full, 14B Q4 | 18-30 | €3-5 |
| Entry | PC + RTX 3090 usata 24GB | €1.700-2.000 | 27B Q4, 70B Q3 (lento) | 20-45 | €54-65 |
| Power | PC + 2x RTX 3090 NVLink 48GB | €2.800-3.500 | 70B Q4 stabile | 15-25 | €100-130 |
| Premium | PC + RTX 5090 32GB | €4.000-4.800 | 40B Q4, 70B Q3 | 30-52 | €65-80 |
| Silent | Mac Studio M4 Ultra 192GB | €5.000+ | 70B Q4, 405B Q2 | 10-20 | €5-8 |
La RTX 3090 usata resta la regina del rapporto VRAM-per-dollaro: 24GB GDDR6X a $800-1.064 su eBay. Ma il prezzo è salito del 26,7% da novembre 2025. L'AI si mangia le GPU — ne avevamo parlato qui — e il mercato dell'usato lo riflette.

E poi c'è il DDR5. I prezzi spot sono esplosi del 307% tra settembre e dicembre 2025 — un kit 32GB entry-level oggi sta sopra i $300. Lo shortage è strutturale, gli analisti lo danno fino al Q4 2027. Ogni mese che aspetti, il build costa di più.
Il cloud gratuito non è gratis. È un modello di business.
ChatGPT free ti dà 10 messaggi ogni 5 ore su GPT-5.2 Instant, poi ti butta su Mini. Context di 16K token — contro i 128K del piano Pro. Niente Thinking, niente Deep Research, niente Codex, niente Sora. E da febbraio 2026, ads nel free tier. I tuoi prompt alimentano il training dei modelli successivi.
Claude free: 10-20 messaggi ogni 5 ore su Sonnet. 200K di context — generoso. Ma niente Opus, niente Claude Code, niente Research. E throttling nei momenti di picco, quando ti serve di più.
Gemini? Cinque prompt al giorno. Cinque. Sulla web app, intendo. Via API, 20 request giornaliere con Flash only — Pro è sparito dal free tier. Google ha deciso che la generosità del 2024 era un errore.
| Servizio | Messaggi free | Context | Modello | Limiti nascosti |
|---|---|---|---|---|
| ChatGPT | 10 / 5 ore | 16K | GPT-5.2 Instant → Mini | Ads, dati per training |
| Claude | 10-20 / 5 ore | 200K | Sonnet | Throttling peak, no Opus |
| Gemini | 5 / giorno | N/D | Flash only | No Pro, API 20 req/giorno |
Se fai meno di 10 query al giorno e non ti importa della privacy, questi limiti bastano. Ma se lavori con codice proprietario, documenti legali, dati sensibili — stai consegnando tutto a server che non controlli, in giurisdizioni che non sono la tua.
Ecco l'obiezione più forte contro il locale: i modelli open source restano indietro.
Sull'intelligence index, il miglior modello open — GLM-5 — segna 82 contro l'86 di Gemini 3.1 Pro. Su MMLU: 96 vs 99. Su SWE-bench Verified, il gap è netto: 62% vs 84%. Sono 5-7 punti che fanno la differenza quando chiedi reasoning complesso, matematica avanzata, debug di sistemi distribuiti.
Ma il quadro non è così semplice.
Su LiveCodeBench, i modelli open battono Claude: 85 contro 76. DeepSeek V3.2 offre circa il 78% della qualità di GPT-5.4 a una frazione del costo API. Qwen3 32B è un mostro sul coding. Per chi ha esplorato le possibilità dell'NPU Ryzen per inference locale, questi modelli girano già oggi su hardware consumer.
Il gap reale tra open e closed si è chiuso da 30 punti nel 2023 a 5-7 nel 2026. Non è scomparso. Ma per l'80% dei task quotidiani — scrivere codice, riassumere documenti, analizzare log, generare testo — il locale è sufficiente. Per il 20% che richiede reasoning frontier, il cloud resta necessario.
Questo è il cuore dell'articolo — la parte dove i numeri americani crollano a contatto con la realtà italiana.
Una RTX 3090 consuma 350-365W sotto carico, 18W in idle. Per inference continua — diciamo 300W di media — sono 216 kWh al mese. Con la tariffa ARERA netta a 0,137 €/kWh sembra gestibile. Ma la bolletta reale, con oneri di sistema, trasporto, accise e IVA, arriva a 0,30-0,40 €/kWh.
Contro le API cloud a pagamento — uso intensivo da ~$200/mese — il break-even arriva in circa 1,5-2 anni. Non malissimo.
Contro il free tier?
Mai. Il free tier costa zero euro. Puoi calcolare il break-even finché vuoi, ma zero è zero. Su un piano puramente economico, il locale perde sempre contro il gratuito.
Il Mac Mini M4 Pro cambia i conti. 30-40W in inference, ~€3-5 al mese di corrente. Fa girare un 8B a 30 tok/s, un 32B a 12 tok/s. Costa €1.399 e non sveglia i vicini.
Il compromesso: meno VRAM (24GB unificata), modelli più piccoli, velocità inferiore a una RTX 4090 (che fa 75 tok/s su un 8B). Ma se il tuo caso d'uso è un Qwen 14B quantizzato per coding assistance, il Mac Mini è la scelta più razionale per un homelabber europeo. I costi energetici italiani lo premiano.
C'è chi guarda solo i numeri e conclude che il locale è uno spreco. Mehul Gupta su Medium lo dice senza filtri: "Sometimes it feels like debugging your OS more than running AI." E ha ragione — il setup non è banale. CUDA, dipendenze Python, driver, quantizzazione. "Real-time chat? Forget it" per i modelli più grandi.
Ma il prezzo del cloud gratuito non è mai stato solo economico.
"Political sensitivities have introduced layers of ideological censorship and over-refusal" — scrive p4sc4l su Substack, analizzando i pattern di censura nei modelli commerciali. Non è complottismo: è documentato. Modelli di provenienza diversa censurano cose diverse. Quelli occidentali hanno una soft censorship su temi sensibili, quelli cinesi e russi su politica. I modelli locali, specialmente le versioni "abliterated" con i safety layer rimossi, non censurano niente.
Poi c'è il GDPR. Il self-hosting elimina il rischio di trasferimento dati extra-UE — compliance nativa, senza DPA da firmare, senza fidarsi delle promesse di un'azienda californiana. Con l'AI Act in vigore dal 2 agosto 2026, i modelli open source sotto le soglie di rischio non richiedono conformità specifica. Vantaggio concreto per chi deploya in casa.
Ho fatto girare DeepSeek V3.2 sul mio homelab per tre settimane. Per i task quotidiani — refactoring, analisi log, generazione di config Ansible — non ho sentito la mancanza di Claude o ChatGPT. Per le domande complesse, quelle dove serve reasoning a catena lunga, ho dovuto tornare al cloud. Non per scelta ideologica. Perché il risultato locale era peggiore. Ed è stato il momento in cui ho capito che la risposta non è "locale O cloud" — è sapere quando usare cosa.
Dopo mesi di test, la mappa è abbastanza chiara.
La quota di inference AI enterprise on-premise è passata in modo significativo tra il 2023 e il 2026, trainata da esigenze di privacy, latenza e controllo dei costi. Non è un trend da homelabber romantici — è un movimento strutturale. Chi gestisce dati sensibili sta portando tutto in casa. Chi testa modelli come Gemma 4 su hardware locale sta già nell'onda giusta.

Il cloud gratuito è il crack dell'AI: la prima dose è gratis, il prezzo vero è la dipendenza. I tuoi prompt diventano dati di training. Le tue abitudini diventano metriche di engagement. I tuoi documenti finiscono su server che non puoi auditare.
Ma il locale è il vinile dell'AI: romantico, costoso, e alla fine ascolti comunque Spotify per le playlist del lunedì mattina.
Chi dice "solo locale" o "solo cloud" sta vendendo una narrativa. La risposta è sporca, ibrida, poco elegante: locale per la privacy, il volume e la libertà. Cloud per il reasoning che il tuo hardware non può ancora toccare. E la disciplina di sapere quando stai pagando — in euro, in dati, o in entrambi.
Fonti: Hardware Corner, XDA Developers, DEV Community, BenchLM, Compute Market, FreeAcademy, Luce-Gas.it, p4sc4l Substack