Headroom si installa con pip, si mette davanti al tuo LLM come proxy e comprime gli output rumorosi — log, JSON, chunk RAG — prima che arrivino al modello. Sul mio homelab, davanti a Ollama e LM Studio, ha tagliato in media il 51% dei token. Ma con un asterisco grosso: su un log compresso al 95% ha fatto sparire la causa dell'errore. Ecco come si usa e dove sta il confine.

Nel pezzo precedente su Headroom avevo smontato il claim del "60-95% di token in meno, stesse risposte": è marketing, i numeri reali sono molto più sfumati. Restava però la domanda pratica: ok, ridimensionato — ma allora come si installa, come si usa, e quanto rende davvero? Questa è la prova sul campo. L'ho installato, gli ho costruito un banco di prova riproducibile e l'ho cronometrato.

Come si incastra, in 60 secondi

Headroom è un layer di compressione del contesto open-source (licenza Apache-2.0). Non è un modello: è un intermediario. Si piazza tra la tua applicazione (o il tuo agente) e l'LLM, intercetta quello che stai per mandare al modello, riconosce il tipo di contenuto (JSON, codice, log, testo) e lo comprime con compressori specializzati.

Lo puoi usare in tre forme: come libreria Python, come proxy HTTP compatibile con le API OpenAI e Anthropic, o come wrapper per agenti già pronti come Claude Code, Cursor e Aider. Il caso d'uso classico non è comprimere il tuo prompt — quello resta intatto — ma comprimere gli output dei tool: il docker ps da 400 righe, il dump di log, i venti chunk del RAG. È lì che si annida il grasso.

Installazione passo-passo (e la trappola che non ti dicono)

Serve Python 3.10 o superiore. Sul mio homelab giro tutto in WSL, dove avevo solo Python 3.14 (troppo nuovo per alcune dipendenze ML), quindi mi sono creato un ambiente isolato con uv:

bash

# uv installa al volo un Python 3.13 dedicato, senza toccare il sistema
curl -LsSf https://astral.sh/uv/install.sh | sh
uv python install 3.13
uv venv --python 3.13 .venv && source .venv/bin/activate

La via "tutto incluso" della documentazione è questa:

bash

pip install "headroom-ai[all]"

Qui c'è il trabocchetto. L'extra [all] si tira dietro hnswlib (la memoria vettoriale), che va compilato da sorgente. Se sulla macchina non hai un compilatore C++, l'installazione si pianta a metà con un secco

Articoli Correlati

MoneyPrinterTurbo + Ollama: video AI a costo zero in locale (Parte 1)

Agente AI scraping locale: Scrapling come MCP server, zero cloud nel tuo homelab

Headroom in pratica: guida passo-passo e quanto risparmia davvero

Come si incastra, in 60 secondi

Installazione passo-passo (e la trappola che non ti dicono)

Commenti (0)

Ollama Proxmox LXC senza GPU: gotcha reali, 15 t/s CPU-only

I tre modi d'uso, con output reali

Come libreria: una riga

Come proxy: il modo vero

Come wrapper per agenti

Il mio banco di prova

I numeri

Dove l'ago è caduto

In locale comprimere ti fa anche andare più veloce

Le manopole che contano

Quando conviene (e quando no)

Verdetto pratico

Domande frequenti

Headroom comprime davvero il 90% dei token?

Headroom peggiora le risposte del modello?

Funziona con Ollama e LM Studio?

Quanto è difficile da installare?

Resta Aggiornato