Ogni mese ricevo email tipo "metto Llama 3 in azienda, gratis, addio cloud". È una promessa che gira ovunque: con 200€ di hardware e un modello da 1 miliardo di parametri ti fai il tuo ChatGPT interno, paghi zero per token, i dati restano in casa.

Ho passato due settimane a verificare quanto sia vero, costruendo una demo realistica per una PMI fittizia: un caseificio che riceve email da clienti da smistare. Hardware: una LattePanda Alpha da 200€. Modello: Llama 3.2 1B via Ollama. Risultato: il 1B locale funziona davvero, ma quasi mai come te l'hanno raccontato.

Questa guida raccoglie i numeri reali — accuracy per campo, latenze, costi nascosti — di chi sta valutando un LLM locale per PMI, e separa i casi d'uso dove vince davvero da quelli dove sta perdendo tempo.

Quando un LLM locale ha senso (e quando no)

Tre casi in cui un modello da 1-3 miliardi di parametri funziona davvero:

Classificazione e routing di flussi ripetitivi: email cliente, ticket, segnalazioni. Input ristretto, output con etichette discrete (categoria, reparto, priorità).
Estrazione strutturata da testi semi-formali: numeri ordine, importi, date di scadenza, codici fiscali, codici SDI. Il modello legge testo libero e produce JSON.
Risposte canned su knowledge base ristretta: helpdesk IT interno con 200 articoli, FAQ HR. Domanda → ricerca → l'LLM riformula la risposta più vicina.

Tre casi in cui invece i modelli piccoli si rompono in modo prevedibile:

Q&A aperto sui dati aziendali. Senza un grosso lavoro di RAG sofisticato, il 1B fa hallucination su numeri specifici. Te lo dico per esperienza: nei test su FAQ tecniche di un caseificio rispondeva 70°C dove il documento diceva 72°C.
Ragionamento multi-step. "Confronta le tre offerte e dimmi quale conviene" è oltre la soglia di un 3B locale. Serve un modello da 70B+ o un agent multi-step.
Generazione creativa di qualità. Per scrivere un'email professionale o una bozza commerciale i 1B suonano artificiali. Phi-4-mini su questo si difende meglio di Llama 3.2, ma resta sotto la soglia "lo userei davvero".

Il pattern unificante: input ristretto + output strutturato + dominio chiuso = OK. Tutto il resto è un terno al lotto.

L'hardware reale per un LLM locale

I numeri di throughput in token al secondo (tok/s) decidono se la tua applicazione è usabile. Una classificazione email che impiega 20 secondi va bene; una chat interattiva sotto i 15 tok/s è frustrante.

Hardware	Costo	1B Q4	7-8B Q4	Power
Intel N100 mini PC	~150€	15-20 tok/s	6-9 tok/s	10-15W
LattePanda Alpha m3-8100Y	~200€ usato	8-13 tok/s	non consigliato	5-12W
AMD Ryzen 7 8845HS mini PC	~600€	30-40 tok/s	18-25 tok/s	35-45W
Mac Mini M4 base	700€	40-60 tok/s	20-30 tok/s	30-40W
RTX 3060 12GB usata	250-300€	100+ tok/s	50-70 tok/s	170W

Campo	Zero-shot	Few-shot
categoria	~67%	71%
reparto	0%	100%
tono	~50%	100%
ordine_id	0%	100%
urgenza	~50%	29%

Articoli Correlati

Ollama Proxmox LXC senza GPU: gotcha reali, 15 t/s CPU-only

ChatGPT privato in casa su LattePanda Alpha: €13 l'anno, zero cloud

L'AI locale in azienda: cosa fanno davvero i modelli piccoli (1-3B)

Quando un LLM locale ha senso (e quando no)

L'hardware reale per un LLM locale

Commenti (0)

OpenClaw homelab: AI gateway self-hosted e tool calling da 5 minuti

Il costo nascosto: dataset e fine-tuning

Cosa fanno davvero le aziende che mettono un LLM piccolo in produzione

Il mio test: Llama 3.2 1B su classificazione email

Quale LLM piccolo scegliere domani mattina

Domande frequenti

Quanto costa davvero mettere un LLM piccolo in produzione in azienda?

Posso usare un Llama 3.2 1B senza fine-tuning per task aziendali?

Quale modello piccolo conviene scegliere come base nel 2026?

Ollama o LM Studio per fare i test in azienda?

La verità che il marketing non ti dice

Resta Aggiornato