Name: LattePanda Alpha + Ollama: 12 token al secondo di AI locale con 5 watt, senza GPU
Brand: llama3.2
Rating: 4.4 (1 reviews)

Questa board consuma meno del caricatore del tuo telefono. Ci gira un modello da 3 miliardi di parametri.

La LattePanda Alpha 800s è una single board computer x86 tascabile: Intel m3-8100Y, 2 core e 4 thread, TDP di 5 watt. Pensata per stare accesa ventiquattro ore su ventiquattro come nodo dedicato. Su questa scheda, dentro Debian 13 Trixie, Ollama v0.21.1 fa girare otto modelli LLM diversi tra 1 e 3 miliardi di parametri. Il vincitore — gemma3:1b, rilasciato a marzo 2025 da Google — sputa 12,53 token al secondo mantenendo risposte corrette in italiano fluido. Non è fantascienza, è hardware che già esiste e costa una frazione di qualsiasi setup GPU.

Il racconto comune sull'AI locale è che serva un server potente. GPU da 1.700 euro, decine di watt di consumo sostenuto, VRAM a pacchi. Ne avevamo parlato qui ragionando sui costi reali di una workstation AI domestica. Il test su questa board ribalta l'assunto: con 5 watt di TDP e un modello recente giusto, l'inferenza CPU-only è perfettamente usabile per una chat privata domestica. I numeri parlano chiaro, il resto del post spiega come ci siamo arrivati.

LattePanda Alpha: prima impressione da una SBC fuori categoria

La LattePanda Alpha 800s non è il solito single board computer ARM da un caffè al mese. Dentro monta un Intel Core m3-8100Y — x86-64 completo, con AVX2 attivo (dato cruciale per i modelli Ollama quantizzati) e VT-x per virtualizzazione. Il form factor resta da SBC: circa 115 × 78 mm, stessa classe di un Raspberry Pi 4. La differenza è cosa c'è dentro: una CPU Intel con boost a 3,40 GHz, 8 GB di LPDDR3 saldata, slot M.2 NVMe popolato con un Kioxia XG6 da 256 GB in 3D TLC.

LattePanda Alpha 800s senza case — board tenuta in mano, si vede la ventola centrale sopra il chip m3-8100Y e il form factor ~115x78 mm — La LattePanda Alpha 800s senza case. Ventola 25 mm sul package, chip m3-8100Y sotto, dimensioni 115×78 mm — entra dentro qualsiasi mano.

La prima cosa che salta all'occhio accendendola è il TDP del chip: 5 watt. Lo stesso numero che trovi stampato sul caricatore USB del telefono. Su questa base ci installiamo Debian 13 Trixie fresco, kernel 6.12.74, poi Ollama. Il resto è metodo.

Specifiche che contano per l'inferenza CPU-only

Per un nodo AI senza GPU, la scheda tecnica va letta con occhio diverso. Ollama in modalità CPU-only sfrutta AVX2 per la matrice moltiplicazione dei pesi quantizzati, quindi il primo controllo è sempre quello: presente. I core sono due fisici con hyper-threading, configurazione tipica della linea Y di Intel (mobile a bassissimo consumo). La RAM è il punto delicato — LPDDR3 saldata, 8 GB totali, con una banda più bassa della DDR4 di un desktop qualsiasi. Tenetelo a mente, torna utile tra poco.

ComponenteCPU

ValoreIntel m3-8100Y, 2C/4T, 1,10 GHz base, 3,40 GHz boost, TDP 5W

Rilevanza per OllamaAVX2 + boost sostenuto = throughput inferenza

ComponenteRAM

Valore8 GB LPDDR3 saldata (7,6 GiB utili)

Rilevanza per OllamaBanda = bottleneck reale su CPU-only

ComponenteStorage

ValoreKioxia XG6 KXG60ZNV256G NVMe Gen3 x4, 256 GB

Rilevanza per OllamaLoad del modello < 3s, irrilevante a regime

ComponenteOS

Lo storage a bordo è sovradimensionato per il compito — un NVMe Gen3 x4 da 3.180 MB/s sequenziali serve soprattutto durante il primo caricamento del modello dalla RAM. A regime, con il modello già in memoria, il disco sta fermo. I protagonisti del benchmark sono due: la CPU e la banda di memoria.

Retro della LattePanda Alpha con due slot M.2: a sinistra l'SSD Kioxia XG6 KXG60ZNV256G installato con chip NAND e controller visibili, a destra il secondo slot M.2 vuoto — Retro della LattePanda Alpha, dove ci sono i due slot M.2. A sinistra l'SSD Kioxia XG6 KXG60ZNV256G da 256 GB installato — il chip verde è il controller, gli altri sono i chip NAND Toshiba. A destra il secondo slot M.2 libero. La CPU m3-8100Y sta sull'altro lato della board, sotto il dissipatore.

Ottimizzazione: da 4,1 GiB di RAM occupata a 713 MiB

Debian 13 con GNOME installato di default si mangia 4,1 GiB di RAM su 7,6 disponibili solo per esistere. Con un modello da 3 miliardi di parametri in arrivo — e quindi 2-3 GB di working set aggiuntivi — il conto non torna. Prima di qualunque benchmark, il sistema va snellito. Non è ottimizzazione paranoica: è la differenza tra far girare il modello e finire in swap.

LattePanda Alpha in case stampato in 3D con filamento PLA rosso SUNLU, poggiata sulla scatola di uno switch MokerLink — tre porte USB 3.0 visibili — La stessa board nel case stampato in 3D. Filamento PLA rosso fornito da SUNLU, design aperto sopra per la ventola. Qui poggia sulla scatola di uno switch 2.5G.

Tre interventi, in ordine di impatto: rimozione del desktop grafico, governor CPU su performance, disattivazione dei servizi inutili. Il primo è quello che sposta davvero l'ago.

bash

# Governor performance persistente su tutti i core
for cpu in /sys/devices/system/cpu/cpu[0-9]*/cpufreq/scaling_governor; do
  echo performance | sudo tee "$cpu"
done

# Boot headless, niente più gdm3
sudo systemctl set-default multi-user.target
sudo systemctl disable --now gdm

# Purge di GNOME + stack collegato
sudo apt purge 'gnome-*' gdm3 'evolution*' 'libreoffice-*' 'mutter*' \
  xwayland 'ibus*' task-gnome-desktop
sudo apt autoremove --purge

Segue la disattivazione di una lista di servizi che nessun nodo AI headless deve vedersi caricare: bluetooth, cups, cups-browsed, avahi-daemon, ModemManager, colord, upower, packagekit, switcheroo-control, accounts-daemon, power-profiles-daemon, rtkit-daemon, udisks2, low-memory-monitor. Restano tredici unit attive: ollama, NetworkManager, ssh, systemd, dbus, polkit. Il minimo per avere rete, accesso remoto e il runtime LLM.

MetricaRAM occupata

Prima (GNOME, powersave)4,1 GiB

Dopo (headless, performance)713 MiB

MetricaRAM disponibile

Prima (GNOME, powersave)3,5 GiB

Dopo (headless, performance)7,0 GiB

MetricaServizi attivi

Prima (GNOME, powersave)30

Dopo (headless, performance)13

MetricaCPU governor

Tre virgola quattro GiB di RAM liberata. Il boost CPU salito a 3.400 MHz, il massimo dichiarato da Intel per questo chip. Tutto pronto per far girare qualsiasi cosa Ollama accetti di caricare.

Il test: otto modelli, stesso prompt, qualità e velocità

Il benchmark è pensato per rispondere a una domanda pratica: su questa board, quale modello vale la pena tenere installato per una chat privata in italiano? Stesso prompt per tutti — "Spiega cos'è un reverse proxy in 200 parole per un principiante" — misurazione del throughput di generazione via le metriche native di Ollama, lettura integrale di ogni risposta per valutarne correttezza tecnica, fluidità e assenza di allucinazioni. Telemetria in parallelo a 1 Hz su temperatura package, chipset PCH, frequenza di ogni core e RAM, via uno script di monitor che scrive CSV a bordo.

Il numero che conta è uno: eval rate, i token al secondo in fase di generazione. È la velocità a cui il modello "scrive" nella chat, quella che determina se l'esperienza è usabile o insopportabile. Sotto i 4 tok/s diventa faticoso; sopra i 10 sembra di leggere in diretta.

Modellogemma3:1b

Tok/s12,53

Qualità /109

NoteVincitore assoluto. Analogia commesso del negozio, italiano fluido, 815 MB.

Modelloqwen3:1.7b

Tok/s8,52

Qualità /108

NoteTecnicamente solido, distingue forward e reverse proxy. Mostra "Thinking..." prima della risposta.

Modellollama3.2:1b

Tok/s8,37

Qualità /10

La classifica per velocità e la classifica per qualità coincidono al primo posto — e non è scontato. gemma3:1b è insieme il più veloce e il più accurato. Rilasciato da Google a marzo 2025, pesa 815 MB, supporta contesto da 32K, solo testo. Sulla LattePanda genera a 12,53 tok/s producendo un italiano pulito, senza parole inventate, con un'analogia pedagogica corretta: cliente, proxy, server, proxy, cliente. Esattamente quello che serve a un principiante.

12,53 token al secondo su 5 watt.

All'altra estremità della classifica c'è smollm2:1.7b, che su prompt in italiano risponde in modo sconnesso — un limite del modello, non della board. Stesso discorso per llama3.2:1b (veloce a 8,37 tok/s ma con qualche allucinazione terminologica) e phi3:mini (confonde forward e reverse proxy). L'hardware esegue ciò che gli dai: se il modello è imperfetto, il risultato lo è. Il dato interessante è che l'Alpha regge senza problemi tutti e otto i modelli, incluso un 3B come phi3:mini — serve solo sceglierlo bene.

L'insight: il limite non è la CPU, è la RAM

Passando il governor CPU da powersave a performance, la frequenza di picco del core 0 sale da 2.709 MHz a 3.400 MHz: un +26% di boost reale sul silicio. Lo stesso identico prompt sullo stesso identico modello (llama3.2:3b) passa da 5,43 a 5,55 tok/s. Un miglioramento di appena il 2,2%. Il +26% di compute non produce un +26% di throughput. Produce niente. La CPU, per l'inferenza LLM quantizzata, non è mai stata il collo di bottiglia.

Il collo di bottiglia è la LPDDR3. Ogni token generato richiede di leggere una porzione enorme dei pesi del modello dalla RAM: la CPU aspetta la memoria, non il contrario. La conferma arriva dall'altra direzione del test — i modelli più piccoli vanno più veloci in modo proporzionale al peso del file, non alla loro complessità algoritmica. gemma3:1b (815 MB) gira a 12,53 tok/s, gemma2:2b (1,6 GB) a 6,55, llama3.2:3b (2,0 GB) a 5,55. Più byte da streammare, meno token al secondo.

Sul fronte termico il quadro è rilassato. Idle a 47°C sul package, media sotto carico 64,7°C nel run più lungo, picco assoluto di 79°C su phi3:mini — il modello più pesante dei test. Il TjMAX dichiarato da Intel per il m3-8100Y è 105°C. Ventisei gradi di margine, zero throttling osservato in nessun run. Il dissipatore passivo della board regge anche sessioni di inferenza sostenute oltre i due minuti.

Confronto onesto: Alpha vs Proxmox LXC su Ryzen 1800X

Qualche giorno fa avevamo pubblicato un test analogo su hardware radicalmente diverso: Ollama dentro un container LXC su Proxmox, AMD Ryzen 7 1800X del 2017, 4 vCPU allocati al CT. Trovate tutti i dettagli nel pezzo su Ollama in Proxmox LXC senza GPU. Stesso modello llama3.2:1b su entrambe le piattaforme permette un confronto diretto.

PiattaformaLattePanda Alpha

CPUIntel m3-8100Y

TDP chip5W

llama3.2:1b tok/s8,90

PiattaformaProxmox LXC CT 130

CPUAMD Ryzen 7 1800X, 4 vCPU

TDP chip95W

llama3.2:1b tok/s13,60

Piattaforma	CPU	TDP chip	llama3.2:1b tok/s
LattePanda Alpha	Intel m3-8100Y	5W

Nota: per questo confronto head-to-head abbiamo rifatto il benchmark dell'Alpha con il prompt originale del post LXC ("Elenca tre vantaggi dei container LXC") invece di quello in italiano usato nella classifica degli otto modelli — stesso prompt, confronto equo. Con quel prompt l'Alpha ha fatto 8,90 tok/s contro gli 8,37 del prompt in italiano più lungo. Il Ryzen resta comunque il 53% più veloce in assoluto. Era prevedibile: è un chip desktop con banda di memoria DDR4 dual channel, otto core, watt a disposizione. Il punto interessante non è la velocità pura — è il rapporto tra velocità e consumo. L'Alpha fa 1,78 tok/s per watt di TDP, il Ryzen ne fa 0,14. L'Alpha è circa dodici volte più efficiente per watt del chip Ryzen preso nel suo intero.

Cosa significa in pratica per chi ha un lab domestico. L'Alpha è complementare al server principale, non ne è un'alternativa: è il nodo AI dedicato che tieni acceso sempre, silenzioso, alimentabile da un USB-C e con un costo elettrico annuo trascurabile. Libera il server Proxmox dagli agenti AI senza costringere a mantenere due workload pesanti sullo stesso hardware. In un homelab maturo la divisione ha senso — ogni nodo fa una cosa sola e la fa bene.

Pro, limiti, per chi è fatto

Dopo otto modelli testati e una giornata di telemetria, il profilo d'uso della LattePanda Alpha come nodo AI privato diventa chiaro. Occupa una nicchia precisa e la occupa bene: tenere un'istanza Ollama privata sempre disponibile, in casa, senza mandare un bit nel cloud. Non cerca di competere con la GPU da 1.700 euro — cerca di essere quella cosa che accendi una volta e scordi, e che ti risponde quando le chiedi qualcosa.

Dove funziona davvero: chat privata domestica con domande brevi e medie, assistenza alla lettura di testi in italiano, riformulazioni, sintesi corte. A 12,53 tok/s gemma3:1b scrive alla velocità con cui un umano legge. La risposta arriva in pochi secondi, resta offline, non passa da nessun server esterno. Per chi vuole iniziare a usare Ollama in casa, la guida base la trovate qui — con questa board il setup è identico.

Dove non ha senso: code completion in tempo reale nell'editor, agenti automatici con catene di chiamate, qualunque workload che richieda più di 15 tok/s percepiti. E anche: qualunque modello sopra i 4 miliardi di parametri — ci entrano in RAM ma la banda LPDDR3 li strangola.

Nodo AI dedicato 24/7 accanto al router, consumo irrisorio
Chat privata familiare con modelli piccoli in italiano (gemma3:1b è l'unico che serve davvero)
Laboratorio di sperimentazione per chi vuole capire come si comportano gli LLM su CPU senza spendere per una GPU
Supporto a workflow asincroni (riassunto documenti, classificazione, batch di piccole inference) dove il tempo totale non è critico

Il compromesso principale resta la RAM saldata: 8 GB sono sufficienti per un modello da 3B e il sistema base, ma niente margine per girare contemporaneamente un secondo servizio AI pesante. Il secondo compromesso è la generazione: boost a 3,4 GHz o no, il throughput lo decide la LPDDR3. Chi cerca velocità pura guarderà altrove — chi cerca un nodo AI che sta dietro al monitor e consuma come una lampadina LED, è nel posto giusto.

Nel prossimo pezzo ci metteremo sopra un'interfaccia chat web, con autenticazione, storico conversazioni e accesso dal telefono sulla rete di casa. Alla fine ne esce un ChatGPT privato che consuma cinque watt. Le misurazioni sono in coda.

gemma3:1b su LattePanda Alpha con Ollama — 12,53 tok/s, 815 MB, 5 watt. Il resto sono dettagli.

Fonti: benchmark e telemetria raccolti da Antonio Distefano il 23 aprile 2026 su LattePanda Alpha 800s fornita da DFRobot. Metriche tok/s native di Ollama v0.21.1. Specifiche CPU dal datasheet ufficiale Intel m3-8100Y.

LattePanda Alpha + Ollama: 12 token al secondo di AI locale con 5 watt, senza GPU

Articoli Correlati

ChatGPT privato in casa su LattePanda Alpha: €13 l'anno, zero cloud

Ollama Proxmox LXC senza GPU: gotcha reali, 15 t/s CPU-only

Commenti (0)

Resta Aggiornato

Alta Labs Route10: unboxing del kit NFR e primo fit sul rack