Ogni mese ricevo email tipo "metto Llama 3 in azienda, gratis, addio cloud". È una promessa che gira ovunque: con 200€ di hardware e un modello da 1 miliardo di parametri ti fai il tuo ChatGPT interno, paghi zero per token, i dati restano in casa.
Ho passato due settimane a verificare quanto sia vero, costruendo una demo realistica per una PMI fittizia: un caseificio che riceve email da clienti da smistare. Hardware: una LattePanda Alpha da 200€. Modello: Llama 3.2 1B via Ollama. Risultato: il 1B locale funziona davvero, ma quasi mai come te l'hanno raccontato.
Questa guida raccoglie i numeri reali — accuracy per campo, latenze, costi nascosti — di chi sta valutando un LLM locale per PMI, e separa i casi d'uso dove vince davvero da quelli dove sta perdendo tempo.
Quando un LLM locale ha senso (e quando no)
Tre casi in cui un modello da 1-3 miliardi di parametri funziona davvero:
Classificazione e routing di flussi ripetitivi: email cliente, ticket, segnalazioni. Input ristretto, output con etichette discrete (categoria, reparto, priorità).
Estrazione strutturata da testi semi-formali: numeri ordine, importi, date di scadenza, codici fiscali, codici SDI. Il modello legge testo libero e produce JSON.
Risposte canned su knowledge base ristretta: helpdesk IT interno con 200 articoli, FAQ HR. Domanda → ricerca → l'LLM riformula la risposta più vicina.
Tre casi in cui invece i modelli piccoli si rompono in modo prevedibile:
Q&A aperto sui dati aziendali. Senza un grosso lavoro di RAG sofisticato, il 1B fa hallucination su numeri specifici. Te lo dico per esperienza: nei test su FAQ tecniche di un caseificio rispondeva 70°C dove il documento diceva 72°C.
Ragionamento multi-step. "Confronta le tre offerte e dimmi quale conviene" è oltre la soglia di un 3B locale. Serve un modello da 70B+ o un agent multi-step.
Generazione creativa di qualità. Per scrivere un'email professionale o una bozza commerciale i 1B suonano artificiali. Phi-4-mini su questo si difende meglio di Llama 3.2, ma resta sotto la soglia "lo userei davvero".
Il pattern unificante: input ristretto + output strutturato + dominio chiuso = OK. Tutto il resto è un terno al lotto.
L'hardware reale per un LLM locale
I numeri di throughput in token al secondo (tok/s) decidono se la tua applicazione è usabile. Una classificazione email che impiega 20 secondi va bene; una chat interattiva sotto i 15 tok/s è frustrante.
OpenClaw homelab: AI gateway self-hosted e tool calling da 5 minuti
openclaw homelab con Ollama su LattePanda: 52 skill, AI gateway self-hosted su WhatsApp e Telegram. Il tool calling su CPU m3-8100Y costa 5 minuti reali.
Tier 2026, dove disponibile dato misurato, altrimenti range pubblico:
HardwareIntel N100 mini PC
Costo~150€
1B Q415-20 tok/s
7-8B Q46-9 tok/s
Power10-15W
HardwareLattePanda Alpha m3-8100Y
Costo~200€ usato
1B Q48-13 tok/s
7-8B Q4non consigliato
Power5-12W
HardwareAMD Ryzen 7 8845HS mini PC
Costo~600€
1B Q430-40 tok/s
7-8B Q418-25 tok/s
Power35-45W
HardwareMac Mini M4 base
Costo700€
1B Q440-60 tok/s
7-8B Q420-30 tok/s
Power30-40W
HardwareRTX 3060 12GB usata
Costo250-300€
1B Q4100+ tok/s
7-8B Q450-70 tok/s
Power170W
Hardware
Costo
1B Q4
7-8B Q4
Power
Intel N100 mini PC
~150€
15-20 tok/s
6-9 tok/s
10-15W
LattePanda Alpha m3-8100Y
~200€ usato
8-13 tok/s
non consigliato
5-12W
AMD Ryzen 7 8845HS mini PC
~600€
30-40 tok/s
18-25 tok/s
35-45W
Mac Mini M4 base
700€
40-60 tok/s
20-30 tok/s
30-40W
RTX 3060 12GB usata
250-300€
100+ tok/s
50-70 tok/s
170W
I numeri della LattePanda li ho misurati io stesso nel post sul benchmark Ollama: llama3.2:1b a 8.90 tok/s headless, gemma3:1b a 12.53 tok/s, llama3.2:3b a 5.55 tok/s. Sono dati reali, non sintetici, su un hardware da 200€ usato. Se invece il tuo target è il taglio "monto un beast da 1.700€ in casa", ho un confronto dedicato sui costi hardware homelab con GPU consumer — ma in azienda quasi mai conviene.
Due cose da sapere prima di comprare:
La memory bandwidth conta più della CPU. Per l'inference LLM, i pesi del modello attraversano la RAM ad ogni token generato. Mac Mini M4 vince sui mini PC consumer non perché Apple sia magia, ma perché il suo memory subsystem fa 273 GB/s contro i ~100 GB/s di un AMD desktop equivalente.
La NPU non serve. Tutti i mini PC del 2026 vendono CPU "AI ready" con NPU da 16-50 TOPS. Ollama, llama.cpp e LM Studio non offloadano l'inference LLM sulle NPU. Stai pagando una feature che funziona per video calls e image processing, non per il tuo workflow AI.
Il costo nascosto: dataset e fine-tuning
L'hardware è il 10% del costo totale. Il resto è quello di cui i marketing post non parlano.
Un Llama 3.2 1B base, scaricato senza modifiche, è addestrato su web inglese generico. L'italiano tecnico aziendale è fuori dalla sua distribuzione. Lo schema JSON costringe la forma dell'output, ma non il contenuto. Per portare l'accuracy in produzione serve fine-tuning.
Il fine-tuning con LoRA (Low-Rank Adaptation) è la tecnica standard nel 2026 per questo. Costa poco se hai il dataset:
Hardware: una LoRA su 7B richiede 16 GB di VRAM con quantizzazione 16-bit, o solo 6 GB con QLoRA 4-bit. Una RunPod community cloud H100 costa $2.69-$3.49/ora, una run da 12 ore di fine-tuning intera ti viene circa 10-30€.
Software: Unsloth o Axolotl gestiscono tutto in 50 righe di config.
Il vero costo, e il motivo per cui le PMI italiane ci si bruciano, è il dataset. Per fine-tunare in modo serio servono 500-5000 esempi etichettati del tuo dominio (email del tuo caseificio classificate a mano, ticket del tuo IT con la risposta giusta, ordini del tuo gestionale già parsati).
Le opzioni concrete per produrre il dataset:
A mano, da uno dei tuoi dipendenti. Realisticamente: 2-4 settimane uomo per 1000 esempi. Costo lordo: 3-6.000€.
Generato con un LLM grande, tipo GPT-4 o Claude Opus. Costa 30-100€ in API per 1000 esempi sintetici, ma la qualità è inferiore — devi rivederli a campione.
Esistente, se per fortuna hai già un sistema legacy che colleziona dati etichettati (un CRM con categorie, un ticket system con tag).
Hardware da 200€ + LoRA da 30€ ti fa il deploy. Il dataset da 4.000€ è quello che ti separa dal 70% di accuracy del 1B base e dal 95% di un 1B fine-tunato.
Cosa fanno davvero le aziende che mettono un LLM piccolo in produzione
Apple Intelligence è il caso pubblico più documentato. Il modello on-device che gira su iPhone, iPad e Mac dal 2026 è un 3B + LoRA adapters task-specific. Architettura: KV-cache sharing + quantization-aware training a 2-bit (con average di 3.7 bit-per-weight per recuperare accuracy). I summary delle email, i suggerimenti di risposta, le notifiche raggruppate non vengono dal 3B base — vengono dal 3B più un adapter LoRA addestrato per quel preciso task. Apple ha persino esposto agli sviluppatori la possibilità di fine-tunare i propri adapter via Foundation Models framework.
Il pattern industriale è praticamente sempre lo stesso, anche fuori da Apple:
LLM grande (cloud) → distillazione su dataset domain-specific → 1B-3B fine-tunato → deploy locale.
I benchmark danno una mano a scegliere il modello base giusto. Phi-4-mini di Microsoft (3.8B) batte Llama 3.2 3B su tutti i benchmark pubblici nel 2026, scorando 68.5 MMLU contro 61.8 e 83.7 ARC-C — il top per la sua taglia. Gira su 8 GB di RAM in Q4_K_M (~3.5 GB di file). Per task strutturati italiano-friendly, Qwen 2.5 3B regge il confronto e a volte vince per l'estrazione dati.
Il messaggio per chi sta valutando: non partire da Llama 3.2 perché è quello che tutti citano nei tutorial. Phi-4-mini o Qwen 2.5 3B come base ti danno 5-10 punti di accuracy gratis prima ancora di fine-tunare.
Il mio test: Llama 3.2 1B su classificazione email
Ho costruito un caseificio fittizio (Lattepadna), 7 email tipiche da cliente, e misurato l'accuracy del Llama 3.2 1B base su ogni campo del JSON di output: categoria, reparto, urgenza, tono, ordine_id.
Due configurazioni testate sullo stesso modello:
Zero-shot: prompt minimale "classifica questa email"
Few-shot: stesso prompt più 8 esempi di alta qualità nel context
Risultati in tabella:
Campocategoria
Zero-shot~67%
Few-shot71%
Camporeparto
Zero-shot0%
Few-shot100%
Campotono
Zero-shot~50%
Few-shot100%
Campoordine_id
Zero-shot0%
Few-shot100%
Campourgenza
Zero-shot~50%
Few-shot29%
Campo
Zero-shot
Few-shot
categoria
~67%
71%
reparto
0%
100%
tono
~50%
100%
ordine_id
0%
100%
urgenza
~50%
29%
Latenza per email: 18-24 secondi (zero-shot 16-20s, few-shot +20% per il prompt più lungo). RAM consumata dal processo Python: 40 MB. CPU only, niente GPU. Costo per email: 0€.
Il salto su reparto, tono e ordine_id è netto: il few-shot prompting risolve l'estrazione e i pattern semantici dove il 1B base falliva sistematicamente. Il modello in zero-shot scriveva "ordine_id": null anche quando l'email diceva "ordine 9912" in chiaro.
Ma c'è la parte onesta: l'accuracy sull'urgenza è peggiorata, da ~50% a 29%. Causa: i miei 8 esempi few-shot avevano una sovra-rappresentazione di urgenza alta/critica, e il modello ha imparato a sovrastimare. Su 7 email di test, ne ha classificate 5 come "alta" anche quando erano richieste informative tranquille.
È esattamente la lezione del few-shot prompting: tappi un buco, ne apri un altro. Senza fine-tuning vero — quello sui pesi, non sui pattern del prompt — il soffitto è un 70-80% medio con bias variabili.
Quale LLM piccolo scegliere domani mattina
Albero decisionale concreto, da metterti nella prossima riunione di valutazione.
Hai già un dataset etichettato (CRM, ticket system, gestionale)?
Sì → fine-tuning di Phi-4-mini o Qwen 2.5 3B con LoRA. Hardware Mac Mini M4 o mini PC AMD. Investimento: 700-1.000€ + 30€ di GPU cloud. Risultato realistico: 90-95% accuracy.
No → prosegui sotto.
Quanto volume hai (chiamate al modello/giorno)?
Sotto 5.000/giorno → API cloud quasi sempre vince. GPT-4o-mini costa $0.15 per 1M token input. Realisticamente 5-15€ al mese di costo totale per una PMI media. Il tuo tempo per fare fine-tuning vale di più.
5.000-100.000/giorno → tier intermedio. Self-hosting senza fine-tuning con few-shot prompting può andare per task molto strutturati. Per qualità professionale, fine-tuning obbligatorio.
Oltre 100.000/giorno → infra dedicata GPU, vLLM in produzione, fine-tuning serio. È un altro tipo di progetto.
Hai vincoli di privacy o residenza dati stringenti?
Sanità, legale, dati personali sensibili → self-hosting on-premise non è opzionale. Il fine-tuning diventa un costo da accettare per restare conformi a GDPR/Schrems II.
Marketing/CRM "vorremmo evitare il cloud" → quasi sempre l'analisi dei rischi reali rispetto al risparmio porta a scegliere comunque le API cloud.
Se ti chiedo "Mac Mini M4 o NUC con NPU?" la risposta nel 2026 è Mac Mini M4 senza esitazione, fino a quando llama.cpp non offloaderà sulle NPU degli Intel Lunar Lake o degli AMD AI 300. Se ti dicono "ma l'NPU fa 50 TOPS!", non ti stanno dicendo la verità — quel TOPS è per altre cose, non per il tuo Llama.
Domande frequenti
Quanto costa davvero mettere un LLM piccolo in produzione in azienda?
Hardware una tantum 200-1.000€ + dataset e fine-tuning 30-6.000€ a seconda di come produci il dataset, + manutenzione (drift, aggiornamenti modello). Tipico totale realistico per una PMI: 5-10.000€ il primo anno. Le API cloud sono spesso più economiche se non hai vincoli di privacy stringenti.
Posso usare un Llama 3.2 1B senza fine-tuning per task aziendali?
Sì, ma con accuracy media del 70-80% e bias variabili. Funziona per task molto strutturati (classificazione binaria, estrazione di campi semplici) e quando un errore non è critico. Per produzione vera serve fine-tuning con LoRA su un dataset domain-specific.
Quale modello piccolo conviene scegliere come base nel 2026?
Per casi d'uso generici, Phi-4-mini di Microsoft (3.8B) è il top assoluto sotto i 4B nei benchmark pubblici. Per estrazione strutturata in italiano, Qwen 2.5 3B regge bene. Llama 3.2 3B è popolare ma battuto su tutto da Phi-4-mini, quindi non lo userei come default.
Ollama o LM Studio per fare i test in azienda?
Ollama per script e API automatizzati (è quello che ho usato io per la demo Lattepadna; trovi una guida intro a Ollama per partire). LM Studio per esplorazione interattiva e GUI grafica. Per andare in produzione vera né l'uno né l'altro: vLLM o llama.cpp compilati con i flag giusti.
La verità che il marketing non ti dice
Il 1B locale non è una scorciatoia per "ChatGPT in casa gratis". È un investimento in fine-tuning su un dataset che serve produrre o trovare. Senza quel dataset hai una demo da blog post — non un sistema di produzione.
Chi te lo vende come "metti il modello e funziona" o non l'ha mai messo in produzione, o ha un dataset che non ti dice. Le aziende serie che lo fanno (Apple inclusa) seguono tutte lo stesso pattern: modello grande in cloud → distilla → 1B-3B fine-tunato → deploy locale. La parte "deploy locale" è l'ultimo 10% del lavoro.
Hai un dataset etichettato? Allora un LLM locale per la tua PMI può davvero ribaltare i costi. Se non ce l'hai, comincia da quello — non dall'hardware. E se vuoi vedere cosa puoi mettere sopra a un Ollama già funzionante una volta superata la fase di valutazione, ho documentato il setup di un ChatGPT privato in casa con Open WebUI sulla stessa LattePanda Alpha.
Resta Aggiornato
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.