Nei primi due articoli della serie abbiamo installato LM Studio e misurato quanto corre sul mio portatile RTX 5080 16GB. Lì abbiamo visto quanta VRAM si mangia il modello. Ma c'è un secondo divoratore di memoria di cui quasi nessuno parla: il contesto.
È il primo di tre "bonus" in cui spingo la scheda video al limite lungo i suoi tre assi: oggi la memoria (il contesto), poi la dimensione e la quantizzazione.
Cos'è il contesto (e perché costa)
Il contesto è la memoria a breve termine del modello: tutto quello che "tiene a mente" nella conversazione — la tua domanda, i messaggi precedenti, il documento che gli hai incollato. Si misura in token (pezzetti di parola).
Più alzi il contesto, più il modello ricorda. Comodo per documenti lunghi, riassunti di interi PDF, sessioni di codice estese. Ma c'è un prezzo: per ricordare, il modello tiene in VRAM una struttura chiamata KV cache, che cresce con la lunghezza del contesto. E può diventare enorme — a volte più grande del modello stesso.
I numeri reali
Ho preso un modello leggero (Qwen3 8B in Q4, che da solo occupa ~5 GB) e l'ho caricato con full GPU offload aumentando solo il contesto. Ecco quanta VRAM si mangia, sui 16 GB della scheda:
- A 4.000 token (~4K): ~5,3 GB. Praticamente solo il modello: la memoria qui è quasi gratis.
- A 16.000 token (~16K): ~7,0 GB.
- A 32.000 token (~32K): ~9,3 GB.
- A 128.000 token (~128K): ~15,4 GB — quasi tutta la scheda.
Fermati un attimo su quei numeri. Lo stesso identico modello, passando da contesto corto a contesto enorme, è passato da ~5 GB a ~15 GB. Il contesto da solo si è mangiato ~10 GB: il doppio del peso del modello.
La lezione: modello e contesto litigano per la stessa memoria
Ecco il punto che cambia il modo di ragionare: nei tuoi 16 GB ci devono stare



