27 marzo 2026 · 7 min lettura
Intelligenza ArtificialeOracle licenzia 18% del personale per finanziare $50 miliardi in AI. In Italia il tribunale di Roma legittima il licenziamento in contesto AI. Cosa significa per chi gestisce infrastruttura in autonomia.
Intelligenza Artificialeduck.ai promette chat AI senza tracciamento: nessun log, nessun IP, accordi con Anthropic e OpenAI. Ma DuckDuckGo ha già tradito questa fiducia una volta.

Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
I nuovi modelli Google Gemma 4 girano in homelab con Ollama. Il vero cambio di paradigma è nella licenza Apache 2.0, non nei benchmark.
Sei volte meno memoria. Zero perdita di accuratezza. Un algoritmo gratis che fa tremare un’industria da duecento miliardi di dollari. Questo è il pitch di TurboQuant, la compressione Google per la KV cache degli LLM a 3 bit — e se vi sembra troppo bello per essere vero, probabilmente avete ragione. Almeno in parte.
Il 25 marzo 2026, Google Research ha ripresentato al mondo un paper accettato a ICLR 2026 che giaceva su arXiv da aprile 2025. Undici mesi. La ricerca più potenzialmente disruptive per i produttori di chip di memoria era lì, in bella vista, e nessuno aveva battuto ciglio. Poi è arrivato un blog post con grafici colorati, e SK Hynix ha perso il 6,23% in una seduta. Samsung -4,71%. Micron -3,40%. Il KOSPI giù del 3%.
Un blog post.
Ma il numero che conta — quello che i titoli sensazionalistici hanno sepolto — è un altro: la riduzione reale di memoria non è 6x. È circa 2,6x. Perché il 70-80% dell’inference in produzione già usa FP8, non i 16 bit del paper. Il confronto onesto parte da 8 bit, non da 16. E da 8 a 3 bit, i conti cambiano parecchio. Chi ha seguito la crisi dei prezzi GPU spinta dall’AI sa che i numeri di marketing e quelli reali raramente coincidono.

L’idea di fondo è elegante. TurboQuant combina due tecniche: PolarQuant (AISTATS 2026), che converte i vettori della KV cache in coordinate polari prima della quantizzazione, e QJL (AAAI 2025), che riduce l’errore residuo a un singolo sign bit con zero overhead di memoria. Il risultato: 3 bit per canale, giù dai 16 standard.
La parte interessante è che l’algoritmo è completamente data-oblivious: non richiede retraining, fine-tuning o calibrazione. Lo applichi a qualsiasi modello transformer e funziona. Google l’ha testato su Gemma, Mistral e Llama-3.1-8B-Instruct con benchmark fino a 104.000 token — LongBench, NIAH, ZeroSCROLLS, RULER, L-Eval — e i risultati mostrano perdita di accuratezza sotto la soglia misurabile. La versione a 4 bit raggiunge speedup fino a 8x nel calcolo degli attention logits su GPU NVIDIA H100.
Numeri da capogiro. Ma c’è un dettaglio che Google ha omesso con cura chirurgica.
Il paper non riporta tempi di inferenza end-to-end. Non uno. Come ha fatto notare veunes su HackerNews: «Le coordinate polari sono un veleno assoluto per il calcolo parallelo su GPU. L’omissione delle metriche di latenza suggerisce performance inferiori al vanilla FP16.» Un altro utente, mskkm, rincarava: «Il paper evita convenientemente i tempi di inferenza reali.»
E non è un dettaglio accademico. Se comprimi la KV cache del 5x ma poi il decoding rallenta del 3x, il guadagno netto è molto meno entusiasmante di quanto suggeriscano i grafici del blog di Google. La conversione in coordinate polari introduce operazioni trigonometriche che le GPU moderne — ottimizzate per moltiplicazioni matrice-matrice — digeriscono male. È come chiedere a un velocista di correre sui sassi: può farcela, ma non aspettarti il record.
Guardiamo i numeri del 26 marzo 2026. SK Hynix perde il 6,23%. Samsung il 4,71%. Micron il 3,40%. SanDisk il 5,7%. Western Digital il 4,7%. Il mercato ha reagito a un paper accademico ripubblicato come blog post con la stessa violenza che riserva a un profit warning.
Shawn Kim di Morgan Stanley l’ha definito il «momento DeepSeek» di Google — e il parallelo ha senso. Quando DeepSeek R1 è uscito a gennaio 2025, Nvidia ha perso circa 600 miliardi di dollari di capitalizzazione in un giorno. Poi ha recuperato il 60% nei mesi successivi. Il pattern è lo stesso: panico iniziale, sell-off eccessivo, rimbalzo.
Kim è stato netto: il sell-off è «eccessivo» e invita a comprare il calo. Il ragionamento è il paradosso di Jevons — quando un’attività diventa più efficiente, se ne fa di più, non di meno. Se servono meno chip per far girare un LLM, il numero di LLM in circolazione esplode, e la domanda totale di chip cresce comunque.
Ben Barringer di Quilter Cheviot la mette più sobriamente: «È un’evoluzione, non una rivoluzione. Non altera il quadro della domanda a lungo termine.» E i numeri gli danno ragione — la domanda di HBM crescerà oltre il 70% anno su anno nel 2026, e il gap tra domanda e produzione non si chiuderà a breve. Il P/E del settore semiconduttori è a 6,5x. Già a sconto prima del crollo.

Per capire la portata reale, serve contesto storico. La quantizzazione non è nata ieri.
La distinzione fondamentale: tutti i metodi prima del 2024 comprimevano i pesi del modello. TurboQuant comprime la KV cache — la memoria che cresce a runtime con ogni token generato. Sono approcci complementari, non alternativi. Puoi avere pesi GGUF a 4 bit e KV cache TurboQuant a 3 bit sulla stessa GPU. Per chi fa inference locale, il discorso smette di essere accademico.
Confesso: quando ho letto i numeri sulla KV cache TQ3, la prima cosa che ho fatto è stata aprire nvidia-smi sul mio homelab Proxmox e fare due conti. Li faccio anche per voi.
Setup: RTX 4090 (24 GB VRAM) + Ollama + Mistral 7B. Con un contesto da 32K token, la KV cache occupa circa 4 GB. Con TQ3, scende a ~0,8 GB. Cinque volte meno. Quei 3,2 GB liberati significano contesti teorici fino a 160K token sulla stessa scheda. Per un modello da 70B con circa 34 GB di VRAM disponibile dopo il caricamento dei pesi, i numeri sono ancora più impressionanti: da ~109K token in FP16 a ~536K con TQ3. Quasi 5x. Il sogno di far girare modelli LLM con meno VRAM senza sacrificare il contesto diventa improvvisamente plausibile.
Ma — e questo è il «ma» grande come una GPU homelab — l’implementazione ufficiale non esiste ancora.
Esistono fork non ufficiali di llama.cpp: TQ3 a 3,25 bits/valore con 4,9x di compressione, 18 test su 18 passati, MSE entro l’1%. TQ4 a 4,25 bits/valore con 3,8x. Funzionano su CPU, Metal e CUDA. Ma sono fork, non mainline. Il codice ufficiale Google è previsto per il Q2 2026. Il supporto nativo in Ollama, vLLM e llama.cpp mainline probabilmente arriverà nel secondo semestre.
TurboQuant è reale. I risultati sui benchmark sono solidi. L’approccio data-oblivious è genuinamente elegante — niente calibrazione, niente retraining, lo applichi e funziona. Come ha osservato naasking su HackerNews: «4-bit weights + KV cache a 3 bit potrebbero rendere modelli maggiori eseguibili su hardware consumer robusto.» Adrian Lancucki di NVIDIA Research conferma che «la gestione efficace della KV cache diventa critica per i costi infrastrutturali.»
Ma TurboQuant è anche sovrastimato. La riduzione è 2,6x da FP8, non 6x da FP16. La latenza è un’incognita. Le coordinate polari sono ostili al parallelismo GPU. Il paper aveva undici mesi e nessuno l’aveva adottato. NVIDIA KVTC promette 20x con calibrazione — e NVIDIA controlla l’ecosistema CUDA.
Il mercato azionario ha reagito con isteria a un blog post. Morgan Stanley ha ragione: il paradosso di Jevons protegge i produttori di memoria. La domanda HBM cresce del 70%+ l’anno. I prezzi RAM consumer sono saliti del 171-246% nel 2025. Un algoritmo software non cancella la fisica della domanda hardware.
La provocazione, allora.
Il paper di TurboQuant Google, gratuito su arXiv, ha bruciato decine di miliardi di capitalizzazione in un pomeriggio — ma solo dopo che il reparto marketing di Google ci ha messo sopra un titolo accattivante e quattro grafici. Per undici mesi nessuno aveva mosso un dito. Il mercato finanziario non prezza la ricerca: prezza la narrazione. E se un blog post può spostare miliardi, forse il problema non è TurboQuant. Il problema è che chi gestisce centinaia di miliardi in semiconduttori non legge arXiv.
Fonti: Google Research Blog, Tom’s Hardware, Seoul Economic Daily, SCMP (Morgan Stanley), llama.cpp Discussion #20969, FundaAI, HackerNews, HWUpgrade, TechCrunch, StarkInsider