Siamo all'ultima tappa. Nei primi due articoli abbiamo installato LM Studio e misurato quanto corre su una RTX 5080 16GB; poi, nei bonus, abbiamo spinto la scheda lungo due dei suoi tre assi: la memoria del contesto e la dimensione del modello. Resta il terzo asse, e per i principianti è il più pratico di tutti: la quantizzazione.

Perché è il più pratico? Perché ci sbatti contro subito. Apri LM Studio, cerchi un modello da scaricare, e lui ti propone una lista: Q3_K_L, Q4_K_M, Q6_K, Q8_0. E tu, giustamente, ti chiedi: quale scarico?

Cos'è la quantizzazione (in due righe)

Un modello AI è fatto di miliardi di numeri (i "pesi"). In origine ognuno è memorizzato con tanta precisione — 16 bit. La quantizzazione li riscrive con meno bit: Q8 ≈ 8 bit per numero, Q4 ≈ 4 bit, Q3 ≈ 3 bit. Meno bit = file più piccolo, meno VRAM occupata, meno dati da spostare a ogni parola. Il prezzo, in teoria, è un po' di precisione persa: è la stessa logica del cursore di qualità di un JPEG. La domanda vera è: quanto ci rimetti davvero?

La prova: lo stesso 8B a tre quantizzazioni

Ho preso il Qwen3 8B e l'ho caricato in tre versioni, sulla stessa macchina (RTX 5080 16GB, contesto 4096), misurando dimensione, VRAM, velocità e — con la stessa identica domanda — la qualità della risposta. Tutte e tre entrano comodamente nei 16 GB.

Q3_K_L — 4,43 GB su disco, ~4,8 GB di VRAM, 93 token/s.

Q4_K_M — 5,03 GB, ~5,3 GB di VRAM, 109 token/s.

Q8_0 — 8,71 GB, ~8,5 GB di VRAM,

Articoli Correlati

Quanto grande può essere un'AI in locale? Il limite della VRAM sui 16GB

Perché usare LM Studio (e quanto corre davvero sul mio portatile RTX 5080)

Q3, Q4 o Q8? Quale versione di un'AI locale scaricare (la quantizzazione)

Cos'è la quantizzazione (in due righe)

La prova: lo stesso 8B a tre quantizzazioni

Commenti (0)

Resta Aggiornato

LM Studio: cos'è e come installarlo su Windows (guida per chi parte da zero)

Sorpresa 1: più piccolo non vuol dire più veloce

Sorpresa 2: la qualità quasi non cambia

Il colpo di scena: la quantizzazione fa entrare un modello che non entrava

In pratica: quale scarico?