CVE-2026-7482, Bleeding Llama fa sanguinare 300mila server Ollama

Bastano tre chiamate API non autenticate per far sanguinare memoria da un server Ollama esposto. Niente exploit chain elaborati, niente shellcode: una richiesta, una risposta, un pezzo di RAM del processo che torna indietro. Token API, prompt di altri utenti, variabili d'ambiente. La vulnerabilità si chiama Bleeding Llama, ha il numero CVE-2026-7482 e un CVSS 9.1. E secondo la telemetria di Cyera al momento della disclosure, riguarda circa 300.000 server Ollama pubblici.

Il fix è in Ollama 0.17.1, uscito il 25 febbraio 2026. Le release notes non l'avevano marcato come security fix. Per due mesi nessun scanner sapeva cosa cercare.

Bleeding Llama (CVE-2026-7482): out-of-bounds read in ConvertToF32 — Credit: Ollama project, MIT License

Cosa è successo davvero in CVE-2026-7482: tre call, un memory leak

Bleeding Llama è un out-of-bounds heap read nella funzione ConvertToF32 usata da Ollama durante la quantizzazione GGUF. Un attaccante non autenticato manda tre richieste alla porta 11434 e riceve indietro porzioni di memoria del processo: prompt di altri utenti, token di sessione, variabili d'ambiente come OPENAI_API_KEY o ANTHROPIC_API_KEY passate al container. Niente RCE, ma esfiltrazione passiva di segreti su una superficie d'attacco che gira spesso come root in Docker.

La scoperta è di Cyera con Echo, divulgata a maggio 2026. Il dettaglio che pesa è la cronologia della disclosure: la patch è del 25 febbraio, ma MITRE non ha assegnato il CVE per due mesi. Il ricercatore ha dovuto escalare a Echo come CNA terzo il 26 aprile, ottenendo CVE-2026-7482 il 28 aprile. Nel frattempo gli scanner di vulnerabilità non avevano un identificativo da confrontare con le versioni installate.

CVE-2026-7482, Bleeding Llama fa sanguinare 300mila server Ollama

Articoli Correlati

CloakBrowser Playwright stealth: 4 detector al test, ma CreepJS ne vede ancora il 25%

Vaultwarden self-hosted in homelab: 7,4 MiB di RAM e zero compromessi

Cosa è successo davvero in CVE-2026-7482: tre call, un memory leak

Commenti (0)

Resta Aggiornato

App EU verifica età violata in 2 minuti: perché il design centralizzato è sbagliato

Il contesto: 175.000 server pubblici, un design "trust by default"

Cosa significa per chi ha un homelab