Jailbreak AI al 97%: i rischi reali per attaccante e vittima

Jailbreak AI rischi: quando il pentester è un modello di linguaggio

Bruce Schneier esperto cybersecurity parla dei rischi del jailbreak AI — Credit: Bruce Schneier — Wikimedia Commons, CC BY-SA 2.0

Ho passato un pomeriggio a convincere un LLM a comportarsi da pentester. Non il mio server, non il mio lab — un target esterno, reale. Ci è voluto meno di quanto pensassi. E il punto non è che ci sia riuscito: è che chiunque potrebbe. I rischi del jailbreak AI non sono un problema teorico per ricercatori accademici. Sono un problema operativo, adesso, per chiunque abbia un terminale e un abbonamento a un servizio cloud.

Un dato per inquadrare la situazione: secondo uno studio pubblicato su Nature Communications nel 2026 da Thilo Hagendorff e colleghi, i Large Reasoning Models raggiungono un tasso di successo del 97,14% nel jailbreak di altri modelli AI quando operano come agenti autonomi. Nove modelli target, settanta prompt, sette categorie di attacco. Non stiamo parlando di exploit artigianali: è automazione industriale della manipolazione.

I filtri AI non vi proteggono: anatomia di un teatro di sicurezza

La narrazione ufficiale è rassicurante. I provider pubblicano report sulla robustezza dei guardrail, annunciano nuovi livelli di protezione, organizzano bug bounty. Anthropic ha lanciato una sfida su HackerOne: 339 ricercatori, oltre 300.000 interazioni, 55.000 dollari in premi. I Constitutional Classifiers hanno abbassato il tasso di jailbreak dall’86% al 4,4%. Un risultato impressionante — su un singolo sistema, in condizioni controllate.

Poi guardi i numeri del mondo reale.

Cisco ha misurato un 64% di successo negli attacchi multi-turn contro i principali LLM commerciali, contro un 13% per le query singole. Mistral Large Instruct cede nel 93% dei casi. DeepSeek R1 capitola al 100% nei test Cisco. JBFuzz ottiene circa il 99% su GPT-4o, Gemini 2.0 e DeepSeek-V3 con una media di sette query. Sette. Non settecento.

Jailbreak AI al 97%: i rischi reali per attaccante e vittima

Articoli Correlati

Agente AI self-hosted? OpenHuman lo promette, il suo .env dice no

CVE-2026-7482, Bleeding Llama fa sanguinare 300mila server Ollama

Jailbreak AI rischi: quando il pentester è un modello di linguaggio

I filtri AI non vi proteggono: anatomia di un teatro di sicurezza

Commenti (0)

Resta Aggiornato

UI-TARS Desktop self-hostable? 32k stelle su GitHub, hardware da datacenter

GTG-1002: il caso che rende concreti i rischi del jailbreak AI

Il codice penale italiano non perdona: jailbreak AI rischi legali reali

La supply chain dell’attaccante: dal jailbreak all’exploit

Cosa puoi fare nel tuo homelab (senza finire nei guai)