Ryzen AI NPU Vs GPU per LLM nel tuo homelab: i contendenti
Per tre anni AMD ha promesso che le NPU Ryzen AI sarebbero servite a qualcosa su Linux. Per tre anni, chi ha un homelab con un mini-PC Ryzen AI ha guardato quei 50 TOPS di potenza NPU restare fermi, inutilizzati, buoni solo per le slide del marketing. L'11 marzo 2026, con Lemonade SDK 10.0 e FastFlowLM 0.9.35, le NPU hanno finalmente un motivo per esistere: inference LLM locale nel tuo homelab, su Linux, con API compatibile OpenAI.
Ma servono davvero? O è l'ennesimo giro di hype per investitori?
I numeri raccontano una storia più sfumata di quanto vorrebbero sia gli entusiasti che gli scettici. Ho messo NPU e GPU fianco a fianco, pesato i benchmark reali, ascoltato le obiezioni della community — e alla fine mi sono fatto un'idea precisa. Se state valutando un nodo AI per il vostro homelab, quello che segue vi risparmia settimane di ricerche.
Die shot annotato del Ryzen AI Max+ "Strix Halo" — 441mm² di silicio dove NPU, GPU e CPU convivono. Credit: Tom's Hardware / Fritzchens Fritz
Il contesto: tre anni di promesse, un solo rilascio utile
Aprile 2023: AMD lancia XDNA 1 nei Ryzen 7040 "Phoenix" con circa 10 TOPS. La NPU c'è, ma non serve a niente — nessun software la sfrutta per LLM. Ottobre dello stesso anno, AMD chiede alla community Linux se vogliono supporto Ryzen AI. La risposta è un "sì" massiccio. Poi silenzio.
Luglio 2024: il driver XDNA viene postato per review sul kernel mainline, mergiato poi in Linux 6.14 a inizio 2025. Bene, il mattone hardware c'è. Ma manca tutto il resto — il software applicativo. GAIA esce per Windows, ma su Linux ricade silenziosamente sulla iGPU via Vulkan invece di usare la NPU, come ha documentato Phoronix. A settembre 2025, Virtualization Howto titola senza mezzi termini: "NPUs in Mini PCs are Worthless for a Home Lab".
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Intelligenza Artificiale
Agente AI self-hosted? OpenHuman lo promette, il suo .env dice no
OpenHuman si vende agente AI self-hosted privacy-first, ma il .env manda chat e integrazioni nel cloud: cosa regge come assistente AI locale open source.
Avevano ragione. Fino a marzo 2026.
Lemonade SDK 10.0 e FastFlowLM: cosa cambia davvero
Lemonade 10.0 (aggiornato a 10.0.1 il 24 marzo) è la prima soluzione end-to-end per LLM su NPU AMD sotto Linux. Non è un wrapper, non è un proof of concept. È un server LLM con API compatibile OpenAI che supporta engine multipli: llama.cpp (Vulkan/ROCm/CPU), flm (NPU via FastFlowLM), ryzenai-llm (NPU), più Whisper per speech-to-text e Kokoro per TTS.
FastFlowLM 0.9.35 è il runtime NPU-first che fa il lavoro sporco. Pesa 16 MB, si installa in circa 20 secondi, e supporta modelli LLaMA, DeepSeek, Qwen, Gemma, Phi e GPT-OSS nei formati FLM e ONNX. Non GGUF — ed è un dettaglio che conta, perché chi viene da Ollama dovrà convertire i propri modelli o scaricarne di nuovi.
Il requisito hardware è netto: servono processori Ryzen AI 300 o 400 series con architettura XDNA 2 (Strix, Strix Halo, Kraken, Gorgon Point). Se avete un Ryzen 7040 o 8040 con XDNA 1, siete fuori. Lato software, serve Linux kernel 7.0+ oppure il backport del driver AMDXDNA via DKMS per kernel 6.18+, con firmware NPU >= 1.1.0.0.
Ryzen AI NPU Vs GPU: i benchmark che contano per il tuo homelab
Parliamo di numeri. È qui la differenza tra NPU e GPU diventa brutale — in entrambe le direzioni.
Throughput: la GPU domina, e non è neanche vicina
FastFlowLM su NPU Ryzen AI: 28 TPS su Llama 3.2-3B (confermato, GitHub FastFlowLM)
Un utente Framework 13 con Arch Linux: 19 TPS su GPT-OSS-20B via NPU (Framework Community)
28 TPS su un modello 3B non è veloce. Una RTX 4050 — che è una GPU laptop, non un mostro da data center — fa 131 TPS su un modello più piccolo. La NPU è letteralmente 4-5 volte più lenta in throughput assoluto.
Efficienza energetica: dove la NPU ribalta il tavolo per LLM locale
Ma il gioco cambia completamente se guardate i watt. L'architettura XDNA 2 è 35 volte più efficiente per watt rispetto ai core CPU per carichi AI, con 32 AI Engine tiles e Block Float 16 per ridurre i requisiti di bandwidth. FastFlowLM dichiara efficienza energetica 10x superiore alla GPU.
NPU inference: <2W di consumo
RTX 4050 inference LLM: 34.1W
Energia per token NPU (Hailo-10H come riferimento): 270.5 mJ/tok
Energia per token GPU (RTX 4050): 297.3 mJ/tok
Il dato sull'energia per token è il più rivelatore: 270.5 vs 297.3 mJ/tok. La differenza di efficienza per singolo token non è abissale — il paper su arxiv parla di "energy proportionality quasi identica". Ma quando passi al consumo di sistema, la NPU tira via meno di 2 watt contro i 34 della GPU. Per un nodo always-on nel tuo homelab, sono kilowattora che si accumulano mese dopo mese.
Il modo ibrido NPU+iGPU: l'architettura che nessun altro ha
Il pezzo più interessante dello stack AMD non è la NPU da sola. È il modo ibrido NPU+iGPU: la NPU gestisce il prefill (compute-intensive, minimizza il time-to-first-token) mentre la iGPU gestisce il decode (memory-bandwidth-sensitive, massimizza i tokens per secondo).
Su un Ryzen AI 9 HX 370, il risultato è concreto: ~400 tok/s in prefill e 17.6-20.7 TPS in decode su DeepSeek-R1-Distill-Llama-8B INT4. Niente di paragonabile a una GPU dedicata, ma sufficiente per un'interazione fluida con un modello 8B.
E poi c'è il context length: FastFlowLM supporta fino a 256.000 token su NPU. Significa processare interi codebase, documenti lunghi, conversazioni estese — tutto localmente, senza mandare un singolo byte a un server esterno. Questa è una feature che chi lavora con chip ARM da server — come quelli a 136 core di cui abbiamo scritto — può capire bene: il futuro del compute locale è distribuire il carico su silicio specializzato.
Schema semplificato dell'architettura AMD XDNA: tiles AI Engine, DMA e memoria condivisa. Credit: Wikimedia Commons (CC)
Le obiezioni della community — e cosa risponde il benchmark
Sarebbe disonesto analizzare le NPU senza dare voce agli scettici. E gli scettici hanno argomenti solidi.
"Memory bandwidth è il collo di bottiglia per LLM. La NPU eccelle solo per le CNN, dove i dati scorrono attraverso i pesi, non viceversa." — pclmulqdq, Hacker News
Ha ragione. Il paper su arXiv conferma: la NPU Hailo-10H raggiunge solo 6.9 TPS (limitata dalla bandwidth di memoria on-module) contro i 131.7 della RTX 4050. Per i LLM, dove i pesi del modello vengono streamati continuamente, la bandwidth è tutto. Ma la XDNA 2 di AMD non è una NPU classica — il modo ibrido aggira il problema spostando il decode (bandwidth-intensive) sulla iGPU, che ha accesso alla bandwidth della DDR5 di sistema.
"Even AN older NVIDIA RTX card will be much faster. GPU with good VRAM is a better choice than relying on NPUs." — Community r/LocalLLaMA
Anche qui, vero. Una RTX usata con 8-12 GB di VRAM batte qualsiasi NPU in throughput puro. Ma la domanda non è "cosa è più veloce" — è "cosa ha senso per un nodo always-on a basso consumo". Una RTX a riposo tira via 15-30W. La NPU meno di 2. Su 24 ore al giorno, 365 giorni, la differenza si paga in bolletta.
C'è poi l'argomento più cinico, quello dell'utente AlexandrB su Hacker News: le NPU sarebbero "hype per investitori, non feature per utenti" — transistor piazzati per la narrativa AI, sulla scia della corsa AI di NVIDIA. Prima di marzo 2026, era un argomento difficile da contestare. Adesso che il software funziona, lo è un po' di più.
Cosa significa per chi ha un homelab
FastFlowLM su NPU Linux: lo scenario pratico
Un mini-PC AMD Ryzen AI con 32-64 GB di DDR5 consuma circa 65W totali a sistema e opera a 30-40 dBA — silenzioso abbastanza da tenerlo in una stanza. Con FastFlowLM sulla NPU: ~28 TPS su modelli 3B, ~19 TPS su modelli 20B. Sufficiente per un chatbot locale, code completion, summarization, assistente di ricerca.
L'API OpenAI-compatibile di Lemonade è il dettaglio che trasforma la NPU da curiosità a strumento: qualsiasi applicazione che parla con OpenAI — dal vostro script Python al plugin VSCode — può puntare al localhost:8000 del mini-PC e usare il modello locale. Privacy totale, zero costi API, zero latenza di rete.
Cosa NON può fare la NPU (ancora)
Modelli 70B+: servono GPU dedicate o il Ryzen AI Max+ 395 con 128 GB RAM (che usa iGPU, non NPU)
Fine-tuning e batch inference: la GPU è 10-20x superiore, punto
Ollama non supporta NPU nativamente — bisogna usare Lemonade o FastFlowLM
Formati modello: solo FLM/ONNX, non GGUF nativo. Conversione necessaria
Ecosystem immaturo: driver DKMS, kernel 7.0+, firmware specifico — non è plug-and-play
L'ecosistema intorno: GAIA, il cluster di Geerling e cosa viene dopo
AMD non ha rilasciato solo Lemonade. GAIA v0.17.0 (27 marzo 2026) è un framework open source per agenti AI locali su Ryzen AI: RAG, voice con Whisper e Kokoro, vision con Qwen3-VL-4B, sistema a plugin. Funziona su Linux e Windows.
Jeff Geerling — che nel mondo homelab non ha bisogno di presentazioni — sta costruendo un cluster Beowulf di Ryzen AI Max+ per LLM distribuiti. È sperimentale, ma il fatto che qualcuno di quel calibro investa tempo sulla piattaforma AMD dice qualcosa.
Nei prossimi mesi, il pezzo mancante più grosso è il supporto NPU nativo in Ollama. Quando (non se) arriverà, la barriera d'ingresso crollerà. Intel nel frattempo è indietro: la NPU Lunar Lake fa il 27% in meno nei benchmark LLM rispetto alla Ryzen AI, secondo Igor'sLAB. Qualcomm con Snapdragon X Elite è a 45 TOPS contro i 50-60 di XDNA 2, e il supporto Linux è ancora più acerbo.
Il verdetto
Le NPU Ryzen AI non sostituiscono la GPU per inference LLM. Non oggi, probabilmente non domani. Chi vi dice il contrario sta vendendo qualcosa.
Ma per chi gestisce un homelab, la domanda giusta non è "cosa è più veloce". È: cosa posso tenere acceso 24/7 a meno di 2 watt, senza rubare risorse a CPU e GPU, con 256.000 token di contesto e privacy totale? A quella domanda, da marzo 2026, la risposta è la NPU Ryzen AI su Linux con Lemonade SDK e FastFlowLM. Non è la rivoluzione. È il primo nodo AI nel tuo homelab che ha davvero senso tenere acceso.