C'è un modello di Google che pesa meno di una foto del telefono. Si chiama Gemma 3 270M — 270 milioni di parametri, circa 300 MB su disco una volta quantizzato — e la prima reazione di tutti è la stessa: "e che ci faccio con un modello così piccolo?".

La risposta breve: se gli chiedi di ragionare, fare conti o ricordarsi una conversazione, niente. Fallisce, e va bene così: non è nato per quello. Ma se gli dai un compito stretto e ben definito, e gli mostri qualche decina di esempi fatti da te, diventa qualcosa che non ti aspetti: un classificatore che batte un modello 30 volte più grande, gira in mezzo giga di RAM e risponde in millisecondi. Su un Raspberry Pi, senza cloud.

Questo non è l'ennesimo post "ho provato il modellino, carino". È una masterclass con i numeri veri: ogni cifra qui sotto è misurata a mano sulla mia RTX 5080, su dataset che ho costruito ed etichettato io, con intervalli di confidenza e zero cherry-picking. Vediamo dove funziona, dove crolla, e come si rimette in piedi.

Il metodo: dati fatti in casa, niente trucchi

Prima dei risultati, una promessa. È la parte che separa una masterclass da un post che sbandiera un numero fortunato.

Tutto quello che leggi è misurato così. I dataset li ho costruiti ed etichettati io — ticket di supporto, frasi per il riconoscimento di entità, recensioni di prodotto, metà in inglese e metà in italiano — non scaricati da un benchmark: roba scaricata la rifà chiunque, un dataset costruito e validato a mano è la prova che sai cosa stai misurando. Il test set "gold" è verificato a mano, con zero sovrapposizioni tra ciò su cui il modello si allena e ciò su cui lo giudico (altrimenti misuri la memoria, non la capacità). Ogni numero di copertina è la media su cinque ripetizioni con intervallo di confidenza al 95%, mai un singolo run. E niente 99% finto: dove la curva si appiattisce lo dico, dove restano errori te li mostro.

Il modello base è gemma-3-270m-it. Il fine-tuning è un LoRA — modifico l'1,4% dei pesi — che gira in un paio di minuti sulla GPU. Tutto riproducibile.

Dove il 270M funziona già da solo

Partiamo dalle cose che il 270M fa bene senza addestramento, perché esistono e sono utili.

Routing di tool e function calling, con la variante FunctionGemma: seleziona la funzione giusta e ne compila gli argomenti nell'80% circa dei casi, e sa astenersi quando nessuno strumento serve. È il suo mestiere: smistare chiamate on-device.
Sentiment binario, positivo contro negativo: solido, anche su input pieno di typo e maiuscole.

Articoli Correlati

L'AI locale in azienda: cosa fanno davvero i modelli piccoli (1-3B)

Quanto grande può essere un'AI in locale? Il limite della VRAM sui 16GB

Gemma 3 270M: il modello da mezzo giga che, addestrato in un pomeriggio, batte un 8B

Il metodo: dati fatti in casa, niente trucchi

Dove il 270M funziona già da solo

Commenti (0)

Resta Aggiornato

Q3, Q4 o Q8? Quale versione di un'AI locale scaricare (la quantizzazione)

Dove crolla, da solo

Le tre mosse della produzione

1. Vincola la forma

2. Fine-tuna la competenza (è qui la magia)

3. Concatena (cascade)

La ricetta generalizza (non è fortuna su un task)

Il verdetto onesto