Bastano tre chiamate API non autenticate per far sanguinare memoria da un server Ollama esposto. Niente exploit chain elaborati, niente shellcode: una richiesta, una risposta, un pezzo di RAM del processo che torna indietro. Token API, prompt di altri utenti, variabili d'ambiente. La vulnerabilità si chiama Bleeding Llama, ha il numero CVE-2026-7482 e un CVSS 9.1. E secondo la telemetria di Cyera al momento della disclosure, riguarda circa 300.000 server Ollama pubblici.
Il fix è in Ollama 0.17.1, uscito il 25 febbraio 2026. Le release notes non l'avevano marcato come security fix. Per due mesi nessun scanner sapeva cosa cercare.

Cosa è successo davvero in CVE-2026-7482: tre call, un memory leak
Bleeding Llama è un out-of-bounds heap read nella funzione ConvertToF32 usata da Ollama durante la quantizzazione GGUF. Un attaccante non autenticato manda tre richieste alla porta 11434 e riceve indietro porzioni di memoria del processo: prompt di altri utenti, token di sessione, variabili d'ambiente come OPENAI_API_KEY o ANTHROPIC_API_KEY passate al container. Niente RCE, ma esfiltrazione passiva di segreti su una superficie d'attacco che gira spesso come root in Docker.
La scoperta è di Cyera con Echo, divulgata a maggio 2026. Il dettaglio che pesa è la cronologia della disclosure: la patch è del 25 febbraio, ma MITRE non ha assegnato il CVE per due mesi. Il ricercatore ha dovuto escalare a Echo come CNA terzo il 26 aprile, ottenendo CVE-2026-7482 il 28 aprile. Nel frattempo gli scanner di vulnerabilità non avevano un identificativo da confrontare con le versioni installate.



