Jailbreak AI rischi: quando il pentester è un modello di linguaggio

Ho passato un pomeriggio a convincere un LLM a comportarsi da pentester. Non il mio server, non il mio lab — un target esterno, reale. Ci è voluto meno di quanto pensassi. E il punto non è che ci sia riuscito: è che chiunque potrebbe. I rischi del jailbreak AI non sono un problema teorico per ricercatori accademici. Sono un problema operativo, adesso, per chiunque abbia un terminale e un abbonamento a un servizio cloud.
Un dato per inquadrare la situazione: secondo uno studio pubblicato su Nature Communications nel 2026 da Thilo Hagendorff e colleghi, i Large Reasoning Models raggiungono un tasso di successo del 97,14% nel jailbreak di altri modelli AI quando operano come agenti autonomi. Nove modelli target, settanta prompt, sette categorie di attacco. Non stiamo parlando di exploit artigianali: è automazione industriale della manipolazione.
I filtri AI non vi proteggono: anatomia di un teatro di sicurezza
La narrazione ufficiale è rassicurante. I provider pubblicano report sulla robustezza dei guardrail, annunciano nuovi livelli di protezione, organizzano bug bounty. Anthropic ha lanciato una sfida su HackerOne: 339 ricercatori, oltre 300.000 interazioni, 55.000 dollari in premi. I Constitutional Classifiers hanno abbassato il tasso di jailbreak dall’86% al 4,4%. Un risultato impressionante — su un singolo sistema, in condizioni controllate.
Poi guardi i numeri del mondo reale.
Cisco ha misurato un 64% di successo negli attacchi multi-turn contro i principali LLM commerciali, contro un 13% per le query singole. Mistral Large Instruct cede nel 93% dei casi. DeepSeek R1 capitola al 100% nei test Cisco. JBFuzz ottiene circa il 99% su GPT-4o, Gemini 2.0 e DeepSeek-V3 con una media di sette query. Sette. Non settecento.




