Anthropic ha speso 100 milioni di dollari per trovare LLM zero-day automatici. Antirez lo ha fatto con 50 dollari di token API. E la lezione è la stessa: pipeline che scoprono bug che gli umani non vedono da decenni. Ma solo uno dei due ha condiviso come replicare il tutto a casa propria.
Questa non è la solita storia di un'AI che trova qualche vulnerabilità in un CTF controllato. Qui parliamo di migliaia di zero-day in ogni sistema operativo maggiore, browser, progetti open-source critici. E di un singolo sviluppatore italiano — Salvatore Sanfilippo, il creatore di Redis — che con una pipeline costruita in garage ha trovato 122 bug validati nel suo stesso codice. Senza Mythos, senza accesso privilegiato, senza 11 partner corporate.
Se gestisci un homelab, se hai Redis in qualsiasi container — Coolify, Authentik, Nextcloud, n8n, Immich — questo ti riguarda direttamente. E se pensi che la sicurezza del tuo stack sia un problema solo delle grandi aziende, quello che segue dovrebbe farti riconsiderare. Ne avevamo già parlato analizzando gli errori di sicurezza che costano caro anche alle istituzioni — qui la scala è un'altra.
LLM zero-day automatici: la macchina di Anthropic
Ad aprile 2026 Anthropic lancia Project Glasswing e presenta Claude Mythos Preview, un modello addestrato specificamente per la ricerca di vulnerabilità. I numeri sono quelli che ti aspetti da chi ha 11 founding partner — AWS, Apple, Google, Microsoft, NVIDIA, CrowdStrike, Palo Alto Networks e altri — e 100 milioni di dollari in crediti d'uso da distribuire a oltre 40 organizzazioni.
I risultati pubblicati nel system card di Mythos sono impressionanti. Sul benchmark CyberGym, Mythos segna un 83.1% nella riproduzione di vulnerabilità contro il 66.6% di Opus 4.6. Su OSS-Fuzz con 7000 entry point, Mythos genera 595 crash di tier 1-2 e 10 full control flow hijack. Opus e Sonnet si fermano a 150-175 crash tier 1 e un solo tier 3.
Ma il dato che spacca tutto è Firefox.
181 exploit JS shell riusciti per Mythos. 2 per Opus. Tasso di successo: 72.4% contro il 14.4% di Opus.
E poi ci sono i bug storici dissotterrati: un CVE in FreeBSD NFS vecchio di 17 anni (CVE-2026-4747), un remote root exploit autonomo costruito in circa 4 ore, costo inferiore a 50 dollari di chiamate API. Un bug OpenBSD SACK rimasto nascosto per 27 anni. Un bug FFmpeg H.264 dal 2003 — 23 anni nel codice.




