Nei primi due articoli della serie abbiamo installato LM Studio e misurato quanto corre sul mio portatile RTX 5080 16GB. Poi, nel primo bonus, abbiamo visto quanto costa la memoria del modello — il contesto. Oggi il secondo dei tre bonus in cui spingo la scheda al limite lungo i suoi tre assi: la dimensione. Quanto grande può essere il modello che ci gira davvero bene?

Recap: cosa "entra" nei 16GB

La regola spannometrica l'abbiamo già vista: un modello va veloce se la sua versione quantizzata sta dentro la VRAM, lasciando un margine per il contesto. Sui miei 16 GB significa che ci stanno comodi i modelli fino a ~14 miliardi di parametri in Q4, e che con le architetture moderne posso pure spingermi più in là: il gpt-oss 20B, grazie all'architettura Mixture of Experts, occupa ~11,6 GB ed è perfino il più veloce del lotto a ~176 token/s. Finché il modello entra, voli.

La domanda di oggi è l'opposta: e se prendo un modello che nei 16 GB non ci sta?

Lo scoglio: 18,6 GB su una scheda da 16

Ho scelto il caso di scuola: Qwen3-30B-A3B in Q4, un modello da 30 miliardi di parametri che su disco pesa 18,63 GB. Più della VRAM intera. Sulla carta, non dovrebbe nemmeno partire.

E invece parte. LM Studio non si arrende: quando un modello è più grande della VRAM, lo spezza. Mette quanti più strati riesce sulla GPU e il resto lo lascia girare sulla CPU, in RAM di sistema. Si chiama offload parziale. Nel mio caso ha caricato circa due terzi del modello sulla GPU (~11,7 GB di VRAM occupata) e l'altro terzo (~6 GB) sulla RAM normale.

Qui c'è una tentazione da smontare subito. Il 30B-A3B è un Mixture of Experts: dei suoi 30 miliardi di parametri ne attiva solo ~3 per ogni parola generata. È lo stesso trucco che rende velocissimo il gpt-oss 20B. Verrebbe da pensare: "allora anche questo volerà". Vediamo.

Articoli Correlati

Perché usare LM Studio (e quanto corre davvero sul mio portatile RTX 5080)

Q3, Q4 o Q8? Quale versione di un'AI locale scaricare (la quantizzazione)

Quanto grande può essere un'AI in locale? Il limite della VRAM sui 16GB

Recap: cosa "entra" nei 16GB

Lo scoglio: 18,6 GB su una scheda da 16

Commenti (0)

Resta Aggiornato

LM Studio: cos'è e come installarlo su Windows (guida per chi parte da zero)

I numeri veri

La lezione: il tetto della VRAM è un muro morbido

In pratica, in LM Studio