3 aprile 2026 · 9 min lettura
Intelligenza ArtificialeOracle licenzia 18% del personale per finanziare $50 miliardi in AI. In Italia il tribunale di Roma legittima il licenziamento in contesto AI. Cosa significa per chi gestisce infrastruttura in autonomia.
Intelligenza Artificialeduck.ai promette chat AI senza tracciamento: nessun log, nessun IP, accordi con Anthropic e OpenAI. Ma DuckDuckGo ha già tradito questa fiducia una volta.

Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Lemonade SDK 10.0 accende le NPU Ryzen AI su Linux per inference LLM. 28 token/s, 10x meno watt di una GPU. Il homelab AI ha un nuovo protagonista silenzioso.
Due anni fa, girare un LLM da 26 miliardi di parametri in locale richiedeva un rack, un budget enterprise e una tesi di laurea in CUDA. Oggi serve una GPU da gaming e tre comandi bash. Google ha lanciato Gemma 4 il 2 aprile 2026, e tra tutte le notizie sul lancio — benchmark, architettura MoE, multimodalità nativa — ce n'è una che ha catturato meno attenzione di quanto meritasse: la licenza Apache 2.0.
Non è un dettaglio tecnico. È un cambio di paradigma. Ogni iterazione precedente di Gemma aveva una licenza custom che poneva limiti sul deployment commerciale, sul numero di utenti, sull'uso in prodotti derivati. Con Apache 2.0, quelle restrizioni spariscono tutte. Puoi fare fine-tuning su dati proprietari, servire il risultato commercialmente, distribuire derivati — senza chiedere il permesso a nessuno. E questo, per chi gestisce un google gemma 4 homelab, cambia tutto.
La narrativa ufficiale del lancio è centrata sui numeri: il modello 31B Dense raggiunge la posizione #3 tra tutti i modelli open mondiali su Arena AI con 1452 punti ELO, 89.2% su AIME 2026 (il 27B di Gemma 3 si fermava al 20.8%), 80.0% su LiveCodeBench. Sono numeri seri. Ma i benchmark vivono in ambienti controllati.
La community ha avuto 24 ore per spacchettare il lancio e le conclusioni sono state meno trionfali: il 26B MoE girava a 11 tokens/sec contro i 60+ tokens/sec di Qwen 3.5 35B su hardware identico. Il Dense 31B produceva solo "---\n" su qualsiasi input in LM Studio (bug risolto con aggiornamento, ma la prima impressione fa danni). Sebastian Raschka ha notato che l'architettura è "praticamente invariata rispetto a Gemma 3" — i guadagni vengono dal training recipe, non da innovazioni strutturali.
"Apache 2.0 removes the ambiguity that existed with the old Gemma license entirely. You can fine-tune it on proprietary data, serve the result commercially, share derivatives if you want, all without asking Google's permission." — Google Open Source Blog
Tutto vero. E tuttavia: Apache 2.0 su open weights con qualità al livello enterprise è un evento che si è verificato poche volte nella storia del settore. Quello che Google ha consegnato il 2 aprile non è il modello più veloce, né il più intelligente in assoluto. È il modello che hai il diritto di eseguire, modificare e distribuire senza che nessuno possa cambiare idea a metà corsa.

Gemma 4 arriva in quattro varianti che coprono uno spazio hardware che va dal Raspberry Pi 5 a una workstation da gaming di fascia alta. La scelta giusta per il google gemma 4 homelab dipende quasi interamente dalla GPU disponibile.
L'E2B e l'E4B usano un'architettura chiamata Per-Layer Embeddings: invece di un'unica tabella di embedding condivisa, ogni layer decoder ha la propria tabella secondaria. L'effetto pratico è che il modello riduce i parametri effettivi mantenendo capacità contestuali superiori a quanto suggerisca il nome. L'E4B ha 4.5B parametri effettivi su 8B totali, consuma 5.41 GB in Q4_K_M GGUF — meno di quanto pesa un film in 4K.
Il punto dolce per il homelab è il 26B A4B MoE. Su questo vale la pena spendere due parole sull'architettura: ha 128 esperti interni più un expert condiviso sempre attivo, attivando 8 esperti per token (9 in totale), per 4B parametri attivi in inference. Il risultato: velocità da modello piccolo, qualità da modello grande. Su una RTX 4090 con 24GB VRAM gira comodamente con context window da 256K token — l'intera documentazione di un progetto software in un singolo prompt.
Un caso che merita menzione separata: Raspberry Pi 5 con E2B via LiteRT-LM. Google riporta 133 tokens/sec di prefill e 7.6 tokens/sec in decode con meno di 1.5 GB di memoria usando quantizzazione 2-bit/4-bit. Non è abbastanza per coding assistant, ma per un voice assistant locale è già nel range dell'usabile. Un Raspberry che risponde a comandi vocali senza mandare audio a nessun server cloud — e con una licenza che garantisce che nessuno possa cambiare i termini a metà gennaio.
Ollama è il punto di ingresso più rapido, ma per deployment più seri — API OpenAI-compatible, concorrenza, ottimizzazione throughput — llama.cpp server e vLLM sono le opzioni da considerare. Entrambi supportano Gemma 4 day-0.
Chi usa Apple Silicon ha MLX disponibile — Gemma 4 E4B con mlx-vlm supporta anche le immagini con un singolo comando. Per la gemma 4 inference locale la scelta del framework dipende dal caso d'uso: Ollama per prototipazione rapida, llama.cpp per latenza minima, vLLM quando serve API stabile per più client in parallelo.
Per chi già usa Open-WebUI, LM Studio o Continue.dev: tutti già compatibili. Zero friction. E questo è il vero vantaggio dell'ecosistema aperto che si è costruito attorno a Ollama e llama.cpp negli ultimi due anni — arriva un nuovo modello e il giorno stesso gira su infrastruttura che già hai. Avevamo analizzato questo pattern quando avevamo costruito un IDS con LLM su Raspberry Pi 5: la cadenza dei rilasci open si sta accelerando al punto che l'hardware rimane il bottleneck, non il software.
The Register ha titolato il lancio "Google battles Chinese open weights models with Gemma 4" e il framing è corretto. Qwen 3.5 di Alibaba, GLM-5 di Zhipu AI, Kimi K2.5 di Moonshot AI — i modelli cinesi hanno stabilito benchmark che Gemma 4 non supera nella classifica assoluta. Il 31B è terzo, non primo.
Per chi gestisce un homelab questa competizione è una manna. Ogni trimestre arriva un nuovo modello open-weight più capace del precedente, da produttori diversi, con licenze permissive. Il Qwen 3.5 35B MoE in alcuni test gira a 60+ tokens/sec contro gli 11 di Gemma 4 26B A4B su hardware identico — se la velocità è prioritaria, è una differenza che conta. Ma Gemma 4 porta multimodalità nativa (video, immagini, audio) integrata nel modello base, senza stack separati.
La multimodalità nativa apre casi d'uso che prima richiedevano pipeline complesse. OCR locale senza modelli separati. Analisi di screenshot o foto di componenti hardware direttamente dall'homelab assistant. Function calling integrato per automazioni n8n o Home Assistant — il modello chiama i tool, non solo li descrive.
Il 26B MoE con context window da 256K è dimensionato per RAG su corpora grandi: l'intera documentazione di un progetto, log di sistema degli ultimi mesi, archivio email privato. Nessun dato esce dalla rete locale. Apache 2.0 garantisce che questo setup resti legale anche quando decidi di metterci sopra un frontend e condividerlo con altri utenti della tua rete.
Sul fronte NPU e accelerazione hardware dedicata, il discorso è più in evoluzione. Avevamo esplorato il potenziale del Ryzen AI NPU su Linux per LLM nel homelab: il supporto llama.cpp per NPU è ancora parziale, ma l'integrazione di Gemma 4 nel runtime LiteRT-LM di Google suggerisce che la direzione è verso hardware dedicato edge — non solo GPU discrete.
Gemma 1 (febbraio 2024): licenza custom. Gemma 2 (2024): licenza custom. Gemma 3 (marzo 2025): licenza custom, ancora, con gli stessi limiti sul deployment commerciale. Con ogni iterazione Google allargava le capacità tecniche e restringeva le libertà legali — un pattern che non incentivava i deployment seri.
Con Gemma 4, Apache 2.0 vale su tutti e quattro i modelli. VentureBeat ha osservato che questo apre settori che con la vecchia licenza erano praticamente bloccati: sanità, fintech, pubblica amministrazione. Sono ambienti in cui "non puoi mandare dati fuori" e "non puoi avere un venditore che cambia i termini" non sono preferenze ma requisiti normativi.
La distinzione onesta da fare: Apache 2.0 sui pesi non equivale a open source nel senso classico. Il training data non è divulgato, l'architettura deriva da Gemini 3 proprietario. Come ha scritto The Register: "open weights, not open source." Ma per il 99% degli use case homelab questa distinzione è irrilevante. Quello che conta è che puoi usare il modello, modificarlo e costruirci sopra senza chiedere il permesso a nessuno e senza che il terreno possa spostarsi sotto i tuoi piedi.
Gemma 4 non è il modello più veloce né il più potente in assoluto. Su hardware consumer il 26B MoE perde nettamente contro Qwen 3.5 in velocità di inference — e questo conta quando costruisci workflow interattivi. Ma Google ha appena consegnato agli homelabber un modello multimodale di qualità enterprise sotto una licenza che nessun avvocato aziendale può contestare. Apache 2.0 sui modelli open-weight non è un dettaglio di comunicazione: è la struttura legale che permette di costruire infrastruttura AI privata duratura. I benchmark cambiano ogni tre mesi. La licenza resta. E su questo, per ora, nessuno fa meglio.
Fonti: Google AI — Gemma 4 Model Card, HuggingFace — Welcome Gemma 4, Google Open Source Blog — Apache 2.0, The Register, Ollama library, Simon Willison, Hacker News #47616361, 24h community review — dev.to