La NPU dell'Orange Pi 5 Pro rende davvero più della CPU per gli LLM?

Sì, ma poco. Nei miei test la generazione di token va dal 17 al 42% più veloce sulla NPU rispetto alla CPU, a seconda del modello. Non è l'ordine di grandezza che i "6 TOPS" lasciano immaginare, perché la generazione è limitata dalla banda di memoria, non dalla potenza di calcolo dell'acceleratore.

Il Raspberry Pi 5 ha una NPU per far girare gli LLM?

No. Il SoC Broadcom BCM2712 del Pi 5 ha solo CPU, nessun acceleratore AI integrato. Per avere accelerazione serve un add-on esterno — un HAT basato su chip Hailo collegato via PCIe — con hardware e costo a parte.

Che modelli posso far girare su un Orange Pi 5 Pro?

La fascia comoda è 1-3B (Qwen2.5, TinyLlama, Gemma, Llama 3.2) quantizzati a 4 bit. Un 7B gira ma a circa 3-4 tok/s, troppo lento per un uso interattivo continuato. Oltre i 7B su una singola board non è una configurazione pratica.

Perché la NPU non va 10 volte più veloce nonostante i 6 TOPS?

Perché generare token in un LLM è un'operazione sequenziale e memory-bound: ogni token impone di rileggere i pesi dalla memoria, e i TOPS non aiutano su questo percorso. In più la NPU RK3588 accetta solo pesi a 8 bit, che muovono il doppio dei dati rispetto ai 4 bit usati sulla CPU. I dati di benchmark su piattaforme SBC con q4_k_m provengono dal paper arxiv 2511.07425 (novembre 2025, 25 LLM su tre piattaforme). I benchmark RKLLM ufficiali Rockchip (TinyLlama 1.1B, Qwen 1.8B, Phi-3 3.8B, ChatGLM3 6B) sono riportati da CNX Software da documentazione Rockchip luglio 2024. Il setup NPU e i problemi noti sull'Orange Pi 5 Pro sono documentati su XDA Developers . Il confronto qualitativo tra i due percorsi è discusso da Ominous Industries . Il vantaggio di llama.cpp diretto su Raspberry Pi 5 viene da Stratosphere Labs . I benchmark NPU (CPU vs NPU su Qwen2.5/TinyLlama, governor performance) sono misure mie dirette sull'Orange Pi 5 Pro, 26 giugno 2026.

LLM locale ARM SBC benchmark: NPU vale +27%, non 10x

Nei benchmark LLM in locale su un single-board computer ARM, la NPU da 6 TOPS del Rockchip RK3588 genera token più in fretta della CPU, ma il vantaggio reale è del 17-42% a seconda del modello — non l'ordine di grandezza che i "6 TOPS" lasciano immaginare. Il motivo è fisico: la generazione di un LLM è limitata dalla banda di memoria, non dalla potenza di calcolo. L'ho misurato sul mio Orange Pi 5 Pro, CPU contro NPU, sullo stesso modello.

Disclosure: ho richiesto io l'Orange Pi 5 Pro a Orange Pi per provarla in laboratorio; me l'hanno inviata gratuitamente, senza alcun compenso e senza alcun accordo o condizione sui contenuti. Quello che leggi sono test e opinioni miei, completamente indipendenti.

Il motivo fisico: memoria, non potenza di calcolo

Generare un token in un LLM, nella fase di decode, richiede di caricare dalla LPDDR5 i pesi di tutti i layer — sequenzialmente, per ogni singolo token prodotto. Il token N+1 dipende logicamente dal token N; non esiste parallelismo da sfruttare su questo percorso, e nessuna architettura può aggirare questa dipendenza causale. La velocità di generazione è condizionata quasi interamente dalla banda della memoria, non dalla capacità di calcolo dell'acceleratore. I TOPS misurano quante operazioni l'hardware può eseguire in parallelo, ma non è di questo che ha bisogno il decode.

La NPU del RK3588 ha tre core progettati per carichi massivamente paralleli — classificazione immagini, reti convoluzionali, batch di inferenze su computer vision. Su quei carichi, i 6 TOPS dichiarati sono reali. Su un LLM in decode, quei core ricevono i pesi di un token alla volta, eseguono una serie di moltiplicazioni matriciali, e poi aspettano che la LPDDR5 consegni i pesi del token successivo. Il collo di bottiglia si trasferisce sul bus memoria, dove CPU e NPU competono in modo molto più simmetrico di quanto i TOPS nominali lascino immaginare.

C'è un secondo fattore che riduce ulteriormente il gap. La quantizzazione standard per il path CPU su SBC è q4_k_m: 4 bit per peso. La NPU RK3588 supporta esclusivamente W8A8: 8 bit per peso. Non è una configurazione scelta — è un vincolo hardware. Su un modello da 1.5 miliardi di parametri, W8A8 trasferisce il doppio dei byte per ogni token generato rispetto a q4_k_m. La NPU parte già in svantaggio sulla dimensione che è esattamente il collo di bottiglia.

Articoli Correlati

JetKVM vs PiKVM: ho usato il JetKVM per settimane nel mio homelab. Serve ancora un PiKVM?

Hermes Agent su Proxmox: il modello più piccolo è l'unico usabile

LLM locale ARM SBC benchmark: NPU vale +27%, non 10x

Il motivo fisico: memoria, non potenza di calcolo

Commenti (0)

OpenClaw homelab: AI gateway self-hosted e tool calling da 5 minuti

Orange Pi 5 Pro vs Raspberry Pi 5: architetture diverse, costi diversi

Modelli e quantizzazione: cosa gira davvero tra 1B e 7B

Il setup NPU: dove va il tempo

Domande frequenti