31 marzo 2026 · 9 min lettura
Intelligenza ArtificialeOracle licenzia 18% del personale per finanziare $50 miliardi in AI. In Italia il tribunale di Roma legittima il licenziamento in contesto AI. Cosa significa per chi gestisce infrastruttura in autonomia.
Intelligenza Artificialeduck.ai promette chat AI senza tracciamento: nessun log, nessun IP, accordi con Anthropic e OpenAI. Ma DuckDuckGo ha già tradito questa fiducia una volta.

Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
I nuovi modelli Google Gemma 4 girano in homelab con Ollama. Il vero cambio di paradigma è nella licenza Apache 2.0, non nei benchmark.
Per tre anni AMD ha promesso che le NPU Ryzen AI sarebbero servite a qualcosa su Linux. Per tre anni, chi ha un homelab con un mini-PC Ryzen AI ha guardato quei 50 TOPS di potenza NPU restare fermi, inutilizzati, buoni solo per le slide del marketing. L'11 marzo 2026, con Lemonade SDK 10.0 e FastFlowLM 0.9.35, le NPU hanno finalmente un motivo per esistere: inference LLM locale nel homelab, su Linux, con API compatibile OpenAI.
Ma servono davvero? O è l'ennesimo giro di hype per investitori?
I numeri raccontano una storia più sfumata di quanto vorrebbero sia gli entusiasti che gli scettici. Ho messo NPU e GPU fianco a fianco, pesato i benchmark reali, ascoltato le obiezioni della community — e alla fine mi sono fatto un'idea precisa. Se state valutando un nodo AI per il vostro homelab, quello che segue vi risparmia settimane di ricerche.

Aprile 2023: AMD lancia XDNA 1 nei Ryzen 7040 "Phoenix" con circa 10 TOPS. La NPU c'è, ma non serve a niente — nessun software la sfrutta per LLM. Ottobre dello stesso anno, AMD chiede alla community Linux se vogliono supporto Ryzen AI. La risposta è un "sì" massiccio. Poi silenzio.
Luglio 2024: il driver XDNA viene postato per review sul kernel mainline, mergiato poi in Linux 6.14 a inizio 2025. Bene, il mattone hardware c'è. Ma manca tutto il resto — il software applicativo. GAIA esce per Windows, ma su Linux ricade silenziosamente sulla iGPU via Vulkan invece di usare la NPU, come ha documentato Phoronix. A settembre 2025, Virtualization Howto titola senza mezzi termini: "NPUs in Mini PCs are Worthless for a Home Lab".
Avevano ragione. Fino a marzo 2026.
Lemonade 10.0 (aggiornato a 10.0.1 il 24 marzo) è la prima soluzione end-to-end per LLM su NPU AMD sotto Linux. Non è un wrapper, non è un proof of concept. È un server LLM con API compatibile OpenAI che supporta engine multipli: llama.cpp (Vulkan/ROCm/CPU), flm (NPU via FastFlowLM), ryzenai-llm (NPU), più Whisper per speech-to-text e Kokoro per TTS.
FastFlowLM 0.9.35 è il runtime NPU-first che fa il lavoro sporco. Pesa 16 MB, si installa in circa 20 secondi, e supporta modelli LLaMA, DeepSeek, Qwen, Gemma, Phi e GPT-OSS nei formati FLM e ONNX. Non GGUF — ed è un dettaglio che conta, perché chi viene da Ollama dovrà convertire i propri modelli o scaricarne di nuovi.
Il requisito hardware è netto: servono processori Ryzen AI 300 o 400 series con architettura XDNA 2 (Strix, Strix Halo, Kraken, Gorgon Point). Se avete un Ryzen 7040 o 8040 con XDNA 1, siete fuori. Lato software, serve Linux kernel 7.0+ oppure il backport del driver AMDXDNA via DKMS per kernel 6.18+, con firmware NPU >= 1.1.0.0.
Parliamo di numeri. È qui la differenza tra NPU e GPU diventa brutale — in entrambe le direzioni.
28 TPS su un modello 3B non è veloce. Una RTX 4050 — che è una GPU laptop, non un mostro da data center — fa 131 TPS su un modello più piccolo. La NPU è letteralmente 4-5 volte più lenta in throughput assoluto.
Ma il gioco cambia completamente se guardate i watt. L'architettura XDNA 2 è 35 volte più efficiente per watt rispetto ai core CPU per carichi AI, con 32 AI Engine tiles e Block Float 16 per ridurre i requisiti di bandwidth. FastFlowLM dichiara efficienza energetica 10x superiore alla GPU.
Il dato sull'energia per token è il più rivelatore: 270.5 vs 297.3 mJ/tok. La differenza di efficienza per singolo token non è abissale — il paper su arxiv parla di "energy proportionality quasi identica". Ma quando passi al consumo di sistema, la NPU tira via meno di 2 watt contro i 34 della GPU. Per un nodo always-on nel homelab, sono kilowattora che si accumulano mese dopo mese.
Il pezzo più interessante dello stack AMD non è la NPU da sola. È il modo ibrido NPU+iGPU: la NPU gestisce il prefill (compute-intensive, minimizza il time-to-first-token) mentre la iGPU gestisce il decode (memory-bandwidth-sensitive, massimizza i tokens per secondo).
Su un Ryzen AI 9 HX 370, il risultato è concreto: ~400 tok/s in prefill e 17.6-20.7 TPS in decode su DeepSeek-R1-Distill-Llama-8B INT4. Niente di paragonabile a una GPU dedicata, ma sufficiente per un'interazione fluida con un modello 8B.
E poi c'è il context length: FastFlowLM supporta fino a 256.000 token su NPU. Significa processare interi codebase, documenti lunghi, conversazioni estese — tutto localmente, senza mandare un singolo byte a un server esterno. Questa è una feature che chi lavora con chip ARM da server — come quelli a 136 core di cui abbiamo scritto — può capire bene: il futuro del compute locale è distribuire il carico su silicio specializzato.

Sarebbe disonesto analizzare le NPU senza dare voce agli scettici. E gli scettici hanno argomenti solidi.
"Memory bandwidth è il collo di bottiglia per LLM. La NPU eccelle solo per le CNN, dove i dati scorrono attraverso i pesi, non viceversa." — pclmulqdq, Hacker News
Ha ragione. Il paper su arXiv conferma: la NPU Hailo-10H raggiunge solo 6.9 TPS (limitata dalla bandwidth di memoria on-module) contro i 131.7 della RTX 4050. Per i LLM, dove i pesi del modello vengono streamati continuamente, la bandwidth è tutto. Ma la XDNA 2 di AMD non è una NPU classica — il modo ibrido aggira il problema spostando il decode (bandwidth-intensive) sulla iGPU, che ha accesso alla bandwidth della DDR5 di sistema.
"Even AN older NVIDIA RTX card will be much faster. GPU with good VRAM is a better choice than relying on NPUs." — Community r/LocalLLaMA
Anche qui, vero. Una RTX usata con 8-12 GB di VRAM batte qualsiasi NPU in throughput puro. Ma la domanda non è "cosa è più veloce" — è "cosa ha senso per un nodo always-on a basso consumo". Una RTX a riposo tira via 15-30W. La NPU meno di 2. Su 24 ore al giorno, 365 giorni, la differenza si paga in bolletta.
C'è poi l'argomento più cinico, quello dell'utente AlexandrB su Hacker News: le NPU sarebbero "hype per investitori, non feature per utenti" — transistor piazzati per la narrativa AI, sulla scia della corsa AI di NVIDIA. Prima di marzo 2026, era un argomento difficile da contestare. Adesso che il software funziona, lo è un po' di più.
Un mini-PC AMD Ryzen AI con 32-64 GB di DDR5 consuma circa 65W totali a sistema e opera a 30-40 dBA — silenzioso abbastanza da tenerlo in una stanza. Con FastFlowLM sulla NPU: ~28 TPS su modelli 3B, ~19 TPS su modelli 20B. Sufficiente per un chatbot locale, code completion, summarization, assistente di ricerca.
L'API OpenAI-compatibile di Lemonade è il dettaglio che trasforma la NPU da curiosità a strumento: qualsiasi applicazione che parla con OpenAI — dal vostro script Python al plugin VSCode — può puntare al localhost:8000 del mini-PC e usare il modello locale. Privacy totale, zero costi API, zero latenza di rete.
AMD non ha rilasciato solo Lemonade. GAIA v0.17.0 (27 marzo 2026) è un framework open source per agenti AI locali su Ryzen AI: RAG, voice con Whisper e Kokoro, vision con Qwen3-VL-4B, sistema a plugin. Funziona su Linux e Windows.
Jeff Geerling — che nel mondo homelab non ha bisogno di presentazioni — sta costruendo un cluster Beowulf di Ryzen AI Max+ per LLM distribuiti. È sperimentale, ma il fatto che qualcuno di quel calibro investa tempo sulla piattaforma AMD dice qualcosa.
Nei prossimi mesi, il pezzo mancante più grosso è il supporto NPU nativo in Ollama. Quando (non se) arriverà, la barriera d'ingresso crollerà. Intel nel frattempo è indietro: la NPU Lunar Lake fa il 27% in meno nei benchmark LLM rispetto alla Ryzen AI, secondo Igor'sLAB. Qualcomm con Snapdragon X Elite è a 45 TOPS contro i 50-60 di XDNA 2, e il supporto Linux è ancora più acerbo.
Le NPU Ryzen AI non sostituiscono la GPU per inference LLM. Non oggi, probabilmente non domani. Chi vi dice il contrario sta vendendo qualcosa.
Ma per chi gestisce un homelab, la domanda giusta non è "cosa è più veloce". È: cosa posso tenere acceso 24/7 a meno di 2 watt, senza rubare risorse a CPU e GPU, con 256.000 token di contesto e privacy totale? A quella domanda, da marzo 2026, la risposta è la NPU Ryzen AI su Linux con Lemonade SDK e FastFlowLM. Non è la rivoluzione. È il primo nodo AI nel homelab che ha davvero senso tenere acceso.
Fonti: Phoronix, FastFlowLM GitHub, Lemonade SDK, Hardware Corner, arxiv 2603.23640, AMD GAIA, igor'sLAB