Siamo all'ultima tappa. Nei primi due articoli abbiamo installato LM Studio e misurato quanto corre su una RTX 5080 16GB; poi, nei bonus, abbiamo spinto la scheda lungo due dei suoi tre assi: la memoria del contesto e la dimensione del modello. Resta il terzo asse, e per i principianti è il più pratico di tutti: la quantizzazione.
Perché è il più pratico? Perché ci sbatti contro subito. Apri LM Studio, cerchi un modello da scaricare, e lui ti propone una lista: Q3_K_L, Q4_K_M, Q6_K, Q8_0. E tu, giustamente, ti chiedi: quale scarico?
Cos'è la quantizzazione (in due righe)
Un modello AI è fatto di miliardi di numeri (i "pesi"). In origine ognuno è memorizzato con tanta precisione — 16 bit. La quantizzazione li riscrive con meno bit: Q8 ≈ 8 bit per numero, Q4 ≈ 4 bit, Q3 ≈ 3 bit. Meno bit = file più piccolo, meno VRAM occupata, meno dati da spostare a ogni parola. Il prezzo, in teoria, è un po' di precisione persa: è la stessa logica del cursore di qualità di un JPEG. La domanda vera è: quanto ci rimetti davvero?
La prova: lo stesso 8B a tre quantizzazioni
Ho preso il Qwen3 8B e l'ho caricato in tre versioni, sulla stessa macchina (RTX 5080 16GB, contesto 4096), misurando dimensione, VRAM, velocità e — con la stessa identica domanda — la qualità della risposta. Tutte e tre entrano comodamente nei 16 GB.
Q3_K_L — 4,43 GB su disco, ~4,8 GB di VRAM, 93 token/s.
Q4_K_M — 5,03 GB, ~5,3 GB di VRAM, 109 token/s.
Q8_0 — 8,71 GB, ~8,5 GB di VRAM,



