Nei primi due articoli della serie abbiamo installato LM Studio e misurato quanto corre sul mio portatile RTX 5080 16GB. Poi, nel primo bonus, abbiamo visto quanto costa la memoria del modello — il contesto. Oggi il secondo dei tre bonus in cui spingo la scheda al limite lungo i suoi tre assi: la dimensione. Quanto grande può essere il modello che ci gira davvero bene?
Recap: cosa "entra" nei 16GB
La regola spannometrica l'abbiamo già vista: un modello va veloce se la sua versione quantizzata sta dentro la VRAM, lasciando un margine per il contesto. Sui miei 16 GB significa che ci stanno comodi i modelli fino a ~14 miliardi di parametri in Q4, e che con le architetture moderne posso pure spingermi più in là: il gpt-oss 20B, grazie all'architettura Mixture of Experts, occupa ~11,6 GB ed è perfino il più veloce del lotto a ~176 token/s. Finché il modello entra, voli.
La domanda di oggi è l'opposta: e se prendo un modello che nei 16 GB non ci sta?
Lo scoglio: 18,6 GB su una scheda da 16
Ho scelto il caso di scuola: Qwen3-30B-A3B in Q4, un modello da 30 miliardi di parametri che su disco pesa 18,63 GB. Più della VRAM intera. Sulla carta, non dovrebbe nemmeno partire.
E invece parte. LM Studio non si arrende: quando un modello è più grande della VRAM, lo spezza. Mette quanti più strati riesce sulla GPU e il resto lo lascia girare sulla CPU, in RAM di sistema. Si chiama offload parziale. Nel mio caso ha caricato circa due terzi del modello sulla GPU (~11,7 GB di VRAM occupata) e l'altro terzo (~6 GB) sulla RAM normale.
Qui c'è una tentazione da smontare subito. Il 30B-A3B è un Mixture of Experts: dei suoi 30 miliardi di parametri ne attiva solo ~3 per ogni parola generata. È lo stesso trucco che rende velocissimo il gpt-oss 20B. Verrebbe da pensare: "allora anche questo volerà". Vediamo.



