24 aprile 2026 · 10 min lettura
Intelligenza ArtificialeOpen WebUI + Ollama sulla LattePanda Alpha: un ChatGPT privato in casa, accessibile dal telefono, che costa €13 di corrente l'anno invece di €240.
Self-HostingCome far girare ollama proxmox lxc senza GPU: zstd mancante, systemd da zero, 13-15 t/s reali con llama3.2 su CPU AMD Ryzen.
HardwareIscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Alta Labs Route10 recensione hands-on: kit NFR estratto, 4x 2.5GbE + 2x SFP+ multi-rate, Qualcomm IPQ9570, 199$. Sul RackMate T2 prima della configurazione.
Questa board consuma meno del caricatore del tuo telefono. Ci gira un modello da 3 miliardi di parametri.
La LattePanda Alpha 800s è una single board computer x86 tascabile: Intel m3-8100Y, 2 core e 4 thread, TDP di 5 watt. Pensata per stare accesa ventiquattro ore su ventiquattro come nodo dedicato. Su questa scheda, dentro Debian 13 Trixie, Ollama v0.21.1 fa girare otto modelli LLM diversi tra 1 e 3 miliardi di parametri. Il vincitore — gemma3:1b, rilasciato a marzo 2025 da Google — sputa 12,53 token al secondo mantenendo risposte corrette in italiano fluido. Non è fantascienza, è hardware che già esiste e costa una frazione di qualsiasi setup GPU.
Il racconto comune sull'AI locale è che serva un server potente. GPU da 1.700 euro, decine di watt di consumo sostenuto, VRAM a pacchi. Ne avevamo parlato qui ragionando sui costi reali di una workstation AI domestica. Il test su questa board ribalta l'assunto: con 5 watt di TDP e un modello recente giusto, l'inferenza CPU-only è perfettamente usabile per una chat privata domestica. I numeri parlano chiaro, il resto del post spiega come ci siamo arrivati.
La LattePanda Alpha 800s non è il solito single board computer ARM da un caffè al mese. Dentro monta un Intel Core m3-8100Y — x86-64 completo, con AVX2 attivo (dato cruciale per i modelli Ollama quantizzati) e VT-x per virtualizzazione. Il form factor resta da SBC: circa 115 × 78 mm, stessa classe di un Raspberry Pi 4. La differenza è cosa c'è dentro: una CPU Intel con boost a 3,40 GHz, 8 GB di LPDDR3 saldata, slot M.2 NVMe popolato con un Kioxia XG6 da 256 GB in 3D TLC.

La prima cosa che salta all'occhio accendendola è il TDP del chip: 5 watt. Lo stesso numero che trovi stampato sul caricatore USB del telefono. Su questa base ci installiamo Debian 13 Trixie fresco, kernel 6.12.74, poi Ollama. Il resto è metodo.
Per un nodo AI senza GPU, la scheda tecnica va letta con occhio diverso. Ollama in modalità CPU-only sfrutta AVX2 per la matrice moltiplicazione dei pesi quantizzati, quindi il primo controllo è sempre quello: presente. I core sono due fisici con hyper-threading, configurazione tipica della linea Y di Intel (mobile a bassissimo consumo). La RAM è il punto delicato — LPDDR3 saldata, 8 GB totali, con una banda più bassa della DDR4 di un desktop qualsiasi. Tenetelo a mente, torna utile tra poco.
Lo storage a bordo è sovradimensionato per il compito — un NVMe Gen3 x4 da 3.180 MB/s sequenziali serve soprattutto durante il primo caricamento del modello dalla RAM. A regime, con il modello già in memoria, il disco sta fermo. I protagonisti del benchmark sono due: la CPU e la banda di memoria.

Debian 13 con GNOME installato di default si mangia 4,1 GiB di RAM su 7,6 disponibili solo per esistere. Con un modello da 3 miliardi di parametri in arrivo — e quindi 2-3 GB di working set aggiuntivi — il conto non torna. Prima di qualunque benchmark, il sistema va snellito. Non è ottimizzazione paranoica: è la differenza tra far girare il modello e finire in swap.

Tre interventi, in ordine di impatto: rimozione del desktop grafico, governor CPU su performance, disattivazione dei servizi inutili. Il primo è quello che sposta davvero l'ago.
# Governor performance persistente su tutti i core
for cpu in /sys/devices/system/cpu/cpu[0-9]*/cpufreq/scaling_governor; do
echo performance | sudo tee "$cpu"
done
# Boot headless, niente più gdm3
sudo systemctl set-default multi-user.target
sudo systemctl disable --now gdm
# Purge di GNOME + stack collegato
sudo apt purge 'gnome-*' gdm3 'evolution*' 'libreoffice-*' 'mutter*' \
xwayland 'ibus*' task-gnome-desktop
sudo apt autoremove --purgeSegue la disattivazione di una lista di servizi che nessun nodo AI headless deve vedersi caricare: bluetooth, cups, cups-browsed, avahi-daemon, ModemManager, colord, upower, packagekit, switcheroo-control, accounts-daemon, power-profiles-daemon, rtkit-daemon, udisks2, low-memory-monitor. Restano tredici unit attive: ollama, NetworkManager, ssh, systemd, dbus, polkit. Il minimo per avere rete, accesso remoto e il runtime LLM.
Tre virgola quattro GiB di RAM liberata. Il boost CPU salito a 3.400 MHz, il massimo dichiarato da Intel per questo chip. Tutto pronto per far girare qualsiasi cosa Ollama accetti di caricare.
Il benchmark è pensato per rispondere a una domanda pratica: su questa board, quale modello vale la pena tenere installato per una chat privata in italiano? Stesso prompt per tutti — "Spiega cos'è un reverse proxy in 200 parole per un principiante" — misurazione del throughput di generazione via le metriche native di Ollama, lettura integrale di ogni risposta per valutarne correttezza tecnica, fluidità e assenza di allucinazioni. Telemetria in parallelo a 1 Hz su temperatura package, chipset PCH, frequenza di ogni core e RAM, via uno script di monitor che scrive CSV a bordo.
Il numero che conta è uno: eval rate, i token al secondo in fase di generazione. È la velocità a cui il modello "scrive" nella chat, quella che determina se l'esperienza è usabile o insopportabile. Sotto i 4 tok/s diventa faticoso; sopra i 10 sembra di leggere in diretta.
La classifica per velocità e la classifica per qualità coincidono al primo posto — e non è scontato. gemma3:1b è insieme il più veloce e il più accurato. Rilasciato da Google a marzo 2025, pesa 815 MB, supporta contesto da 32K, solo testo. Sulla LattePanda genera a 12,53 tok/s producendo un italiano pulito, senza parole inventate, con un'analogia pedagogica corretta: cliente, proxy, server, proxy, cliente. Esattamente quello che serve a un principiante.
12,53 token al secondo su 5 watt.
All'altra estremità della classifica c'è smollm2:1.7b, che su prompt in italiano risponde in modo sconnesso — un limite del modello, non della board. Stesso discorso per llama3.2:1b (veloce a 8,37 tok/s ma con qualche allucinazione terminologica) e phi3:mini (confonde forward e reverse proxy). L'hardware esegue ciò che gli dai: se il modello è imperfetto, il risultato lo è. Il dato interessante è che l'Alpha regge senza problemi tutti e otto i modelli, incluso un 3B come phi3:mini — serve solo sceglierlo bene.
Passando il governor CPU da powersave a performance, la frequenza di picco del core 0 sale da 2.709 MHz a 3.400 MHz: un +26% di boost reale sul silicio. Lo stesso identico prompt sullo stesso identico modello (llama3.2:3b) passa da 5,43 a 5,55 tok/s. Un miglioramento di appena il 2,2%. Il +26% di compute non produce un +26% di throughput. Produce niente. La CPU, per l'inferenza LLM quantizzata, non è mai stata il collo di bottiglia.
Il collo di bottiglia è la LPDDR3. Ogni token generato richiede di leggere una porzione enorme dei pesi del modello dalla RAM: la CPU aspetta la memoria, non il contrario. La conferma arriva dall'altra direzione del test — i modelli più piccoli vanno più veloci in modo proporzionale al peso del file, non alla loro complessità algoritmica. gemma3:1b (815 MB) gira a 12,53 tok/s, gemma2:2b (1,6 GB) a 6,55, llama3.2:3b (2,0 GB) a 5,55. Più byte da streammare, meno token al secondo.
Sul fronte termico il quadro è rilassato. Idle a 47°C sul package, media sotto carico 64,7°C nel run più lungo, picco assoluto di 79°C su phi3:mini — il modello più pesante dei test. Il TjMAX dichiarato da Intel per il m3-8100Y è 105°C. Ventisei gradi di margine, zero throttling osservato in nessun run. Il dissipatore passivo della board regge anche sessioni di inferenza sostenute oltre i due minuti.
Qualche giorno fa avevamo pubblicato un test analogo su hardware radicalmente diverso: Ollama dentro un container LXC su Proxmox, AMD Ryzen 7 1800X del 2017, 4 vCPU allocati al CT. Trovate tutti i dettagli nel pezzo su Ollama in Proxmox LXC senza GPU. Stesso modello llama3.2:1b su entrambe le piattaforme permette un confronto diretto.
| Piattaforma | CPU | TDP chip | llama3.2:1b tok/s |
|---|---|---|---|
| LattePanda Alpha | Intel m3-8100Y | 5W |
Nota: per questo confronto head-to-head abbiamo rifatto il benchmark dell'Alpha con il prompt originale del post LXC ("Elenca tre vantaggi dei container LXC") invece di quello in italiano usato nella classifica degli otto modelli — stesso prompt, confronto equo. Con quel prompt l'Alpha ha fatto 8,90 tok/s contro gli 8,37 del prompt in italiano più lungo. Il Ryzen resta comunque il 53% più veloce in assoluto. Era prevedibile: è un chip desktop con banda di memoria DDR4 dual channel, otto core, watt a disposizione. Il punto interessante non è la velocità pura — è il rapporto tra velocità e consumo. L'Alpha fa 1,78 tok/s per watt di TDP, il Ryzen ne fa 0,14. L'Alpha è circa dodici volte più efficiente per watt del chip Ryzen preso nel suo intero.
Cosa significa in pratica per chi ha un lab domestico. L'Alpha è complementare al server principale, non ne è un'alternativa: è il nodo AI dedicato che tieni acceso sempre, silenzioso, alimentabile da un USB-C e con un costo elettrico annuo trascurabile. Libera il server Proxmox dagli agenti AI senza costringere a mantenere due workload pesanti sullo stesso hardware. In un homelab maturo la divisione ha senso — ogni nodo fa una cosa sola e la fa bene.
Dopo otto modelli testati e una giornata di telemetria, il profilo d'uso della LattePanda Alpha come nodo AI privato diventa chiaro. Occupa una nicchia precisa e la occupa bene: tenere un'istanza Ollama privata sempre disponibile, in casa, senza mandare un bit nel cloud. Non cerca di competere con la GPU da 1.700 euro — cerca di essere quella cosa che accendi una volta e scordi, e che ti risponde quando le chiedi qualcosa.
Dove funziona davvero: chat privata domestica con domande brevi e medie, assistenza alla lettura di testi in italiano, riformulazioni, sintesi corte. A 12,53 tok/s gemma3:1b scrive alla velocità con cui un umano legge. La risposta arriva in pochi secondi, resta offline, non passa da nessun server esterno. Per chi vuole iniziare a usare Ollama in casa, la guida base la trovate qui — con questa board il setup è identico.
Dove non ha senso: code completion in tempo reale nell'editor, agenti automatici con catene di chiamate, qualunque workload che richieda più di 15 tok/s percepiti. E anche: qualunque modello sopra i 4 miliardi di parametri — ci entrano in RAM ma la banda LPDDR3 li strangola.
Il compromesso principale resta la RAM saldata: 8 GB sono sufficienti per un modello da 3B e il sistema base, ma niente margine per girare contemporaneamente un secondo servizio AI pesante. Il secondo compromesso è la generazione: boost a 3,4 GHz o no, il throughput lo decide la LPDDR3. Chi cerca velocità pura guarderà altrove — chi cerca un nodo AI che sta dietro al monitor e consuma come una lampadina LED, è nel posto giusto.
Nel prossimo pezzo ci metteremo sopra un'interfaccia chat web, con autenticazione, storico conversazioni e accesso dal telefono sulla rete di casa. Alla fine ne esce un ChatGPT privato che consuma cinque watt. Le misurazioni sono in coda.
gemma3:1b su LattePanda Alpha con Ollama — 12,53 tok/s, 815 MB, 5 watt. Il resto sono dettagli.
Fonti: benchmark e telemetria raccolti da Antonio Distefano il 23 aprile 2026 su LattePanda Alpha 800s fornita da DFRobot. Metriche tok/s native di Ollama v0.21.1. Specifiche CPU dal datasheet ufficiale Intel m3-8100Y.
| Componente | Valore | Rilevanza per Ollama |
|---|---|---|
| CPU | Intel m3-8100Y, 2C/4T, 1,10 GHz base, 3,40 GHz boost, TDP 5W | AVX2 + boost sostenuto = throughput inferenza |
| RAM | 8 GB LPDDR3 saldata (7,6 GiB utili) | Banda = bottleneck reale su CPU-only |
| Storage | Kioxia XG6 KXG60ZNV256G NVMe Gen3 x4, 256 GB | Load del modello < 3s, irrilevante a regime |
| OS | Debian 13 Trixie, kernel 6.12.74 | Base minimale, nessuna GUI |
| Ollama | v0.21.1 | Runtime ufficiale, metriche tok/s native |
| Metrica | Prima (GNOME, powersave) | Dopo (headless, performance) |
|---|---|---|
| RAM occupata | 4,1 GiB | 713 MiB |
| RAM disponibile | 3,5 GiB | 7,0 GiB |
| Servizi attivi | 30 | 13 |
| CPU governor | powersave | performance |
| Boost CPU reale cpu0 | 2.709 MHz | 3.400 MHz |
| Modello | Tok/s | Qualità /10 | Note |
|---|---|---|---|
| gemma3:1b | 12,53 | 9 | Vincitore assoluto. Analogia commesso del negozio, italiano fluido, 815 MB. |
| qwen3:1.7b | 8,52 | 8 | Tecnicamente solido, distingue forward e reverse proxy. Mostra "Thinking..." prima della risposta. |
| llama3.2:1b | 8,37 | 4 | Veloce ma errori: "proxys", "origina", inventa un "protocollo proxied". |
| gemma2:2b | 6,55 | 7 | Analogia forzata, lista chiara su sicurezza, performance, cache. |
| smollm2:1.7b | 5,91 | 2 | Completamente sbagliata: "resetta i dati", divaga su IPv6. |
| qwen2.5:3b | 5,85 | 5 | Errore tecnico: dice che è "una macchina virtuale". No. |
| llama3.2:3b | 5,43 | 7 | Decente, qualche typo, copre scalabilità e caching. |
| phi3:mini | 4,75 | 4 | Confuso, mescola forward e reverse proxy, analogia disorientante. |
| 8,90 |
| Proxmox LXC CT 130 | AMD Ryzen 7 1800X, 4 vCPU | 95W | 13,60 |