24 maggio 2026 · 10 min lettura
Intelligenza ArtificialeOpenHuman si vende agente AI self-hosted privacy-first, ma il .env manda chat e integrazioni nel cloud: cosa regge come assistente AI locale open source.
Self-HostingUI-TARS Desktop self-hostable: il VLM ByteDance da 32k stelle chiede 47 GB VRAM per il 72B. Open-weights non significa che puoi girarlo davvero.

Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
AI search vs Google nel 2026: AI Overviews -58% CTR, Gemini al 18%, Qwen-Taobao chiude in chat. Non sostituzione, frammentazione brutale.
Un repository GitHub con 29mila stelle si chiama free-claude-code. Solo che Claude, dentro, non c'e. C'e il CLI di Anthropic dirottato verso diciassette provider terzi - Nemotron, Gemini, DeepSeek, GLM, Kimi - e il modello di default e un MoE di NVIDIA. Il marchio e stato scollato dal prodotto e ci hanno appiccicato sopra un'altra cosa. Funziona da clickbait perfetto: la parola "Claude" tira, "free" tira ancora di piu, l'unione delle due e oro per la timeline.
Il proxy esiste, fa quello che dichiara di fare a livello tecnico - intercetta le chiamate alla Messages API di Anthropic su localhost:8082 e le instrada altrove - ed e anche utile, in casi precisi che vedremo. Ma la promessa "Claude gratis" e un inganno semantico. Smontiamolo, perche la community homelab merita di sapere cosa sta installando.
Il repo Alishahryar1/free-claude-code e un server FastAPI in Python (MIT, 4.4k fork, 104 issue aperte) che espone tre endpoint - /v1/messages, /v1/messages/count_tokens, /v1/models - gli stessi che Claude Code si aspetta dal protocollo Anthropic. Setti ANTHROPIC_BASE_URL=http://localhost:8082 e da quel momento il CLI ufficiale parla con il proxy invece che con api.anthropic.com.
Il routing e per tier: MODEL_OPUS, MODEL_SONNET, MODEL_HAIKU - tre env var che mappano il tier richiesto dal client a un modello reale nel formato provider/famiglia/nome. Se le lasci vuote, scatta il fallback al default del repo: nvidia_nim/nvidia/nemotron-3-super-120b-a12b. Tradotto: il "Claude" che pensi di star usando e in realta un Mamba-Transformer ibrido di NVIDIA da 120 miliardi di parametri. Niente di male, ma e un'altra cosa.
| Cosa pensi di usare | Cosa stai usando davvero (default) | Provider remoto |
|---|---|---|
| Claude Opus 4.x | Nemotron-3-Super-120B-A12B | NVIDIA NIM |
| Claude Sonnet 4.x | Nemotron-3-Super-120B-A12B (se MODEL_SONNET vuoto) | NVIDIA NIM |
| Claude Haiku 4.x | Nemotron-3-Super-120B-A12B (se MODEL_HAIKU vuoto) | NVIDIA NIM |
| Tool calling "Anthropic-grade" | Tool calling del modello upstream scelto | Variabile |
| Context da 200K+ rifinito | 32K-128K nella maggior parte dei free tier | Variabile |
C'e un dettaglio architetturale che racconta tutto del problema: il repo di default setta CLAUDE_CODE_AUTO_COMPACT_WINDOW=190000. Tradotto, il proxy sa che i modelli a cui sta dirottando il traffico non reggono il context window che Claude Code si aspetta - e prova a comprimerlo aggressivamente prima di passarglielo. E una pezza onesta, e dice anche che la differenza fra "Claude" e "non-Claude" non e marginale.
Per capire perche il valore di Claude sta nel modello e non nell'interfaccia conviene guardare il prezzo reale di Anthropic - ne abbiamo scritto analizzando l'ultimo release di Opus 4.7. Quello che paghi quando attivi una max subscription o usi la API a consumo e l'alignment RLHF specifico, il tool-calling rifinito da mesi di iterazione interna, il context utile davvero esteso. Il CLI e solo il vestito. Cambiarlo con un altro motore non e "risparmiare su Claude": e "smettere di usare Claude continuando a usarne il telecomando".
La review piu equilibrata in giro su questo proxy l'ha fatta claudefa.st, e contiene la frase che riassume meglio il punto economico: paghi il 2-5% del costo per ottenere il 70-85% del risultato. Detto cosi sembra un affare. Smettilo di sembrarlo nel momento in cui aggiungi i costi nascosti: tempo speso a debuggare tool-call malformati, prompt riscritti due volte perche il modello non capisce il contesto compresso, allucinazioni in mezzo a refactor lunghi che ti tocca rifare.
La parte sul tool calling non e teoria. E il motivo per cui un workflow agentico self-hosted serio richiede modelli di un certo livello: Claude Code passa il tempo a chiamare Read, Edit, Bash in catene di dieci, venti, trenta chiamate. Se anche solo il 5% di queste viene emesso male - un argomento JSON malformato, un nome di funzione sbagliato - l'intera task fallisce. Il problema con un proxy che dirotta su Nemotron o GLM e che il fallimento non e uniforme: a volte funziona, a volte no, e tu non sai mai se stai testando il tuo prompt o la fedelta del backend.
"Tested it in every single default model: GLM 4.7, GLM 5, GLM-5.1, and Kimi K2 ... I also tested turning off and on the thinking on the models, and there was no good response after all." - Issue #213, free-claude-code (27 aprile 2026, chiusa lo stesso giorno dallo stesso autore senza fix dal maintainer)
L'issue e chiusa senza una spiegazione, ed e esattamente il tipo di segnale operativo che dovresti guardare prima di investire ore a configurare un proxy. Non perche il progetto sia fatto male - Alishahryar1 sta gestendo un repo da 29k stelle in solitaria, 104 issue aperte e 54 PR in coda sono fisiologici a quella scala - ma perche ti dice che il problema non e facilmente diagnosticabile. Quando una cosa fallisce attraverso un proxy che astrae diciassette backend diversi, il debug e un incubo combinatorio.
C'e poi il tema della superficie d'attacco. Anthropic stessa, nei suoi docs ufficiali sui gateway, scrive testualmente che "LiteLLM is a third-party proxy service" e "Anthropic doesn't endorse, maintain, or audit LiteLLM's security or functionality" - con tanto di warning attivo sul fatto che "LiteLLM PyPI versions 1.82.7 and 1.82.8 were compromised with credential-stealing malware". free-claude-code non e LiteLLM, ma vive nella stessa categoria di rischio: middleware non auditato che maneggia le tue API key di diciassette provider in un colpo solo.
C'e una contro-tesi onesta e va presa sul serio: per alcuni use case il proxy fa esattamente quello che promette, e il "degrado" che le review piu severe stimano in misura significativa non si percepisce. E vero. Su task esecutive - refactor meccanici, rename massivi, generazione di boilerplate, conversione formati, scripting di shell - i modelli upstream del repo reggono. Il salto di qualita di Claude Opus si nota nelle decisioni di design, nel debug di logica complessa, nella scrittura di codice nuovo che richiede contesto largo. Su "rinomina questa variabile in 47 file" Nemotron va benissimo.
C'e poi un secondo use case dove il proxy ha senso e si gioca male da chi lo chiama "Claude gratis": il routing per-tier. Mappare MODEL_HAIKU su Ollama locale (modello veloce, task triviali, zero costo), MODEL_SONNET su DeepSeek V4 Flash a $0.10/$0.20 per milione di token (oltre un milione di token di context window, ottimo rapporto qualita/prezzo), e MODEL_OPUS sull'API Anthropic vera quando serve la qualita reale - qui il proxy diventa davvero utile. Ma chiamalo per quello che e: un gateway di orchestrazione, non un sostituto.
L'uso "smanetta in un homelab" e il caso forte per free-claude-code. Se hai una macchina con 32 GB di RAM in su (sotto, lo swap distrugge l'esperienza agentica) e vuoi testare GLM-4.7 Flash, qwen3-coder, gpt-oss dentro un CLI che gia conosci, vale il setup. E un costo di apprendimento azzerato per esplorare l'ecosistema OSS. Se invece il tuo hardware e gia impegnato e ti interessa capire prima dove sta il vero costo dei modelli locali - VRAM, consumi, tempo di inferenza reale - vale la pena partire dai numeri di un setup LLM domestico onesto prima di immaginare lo stack.
Resta il caso in cui free-claude-code viene presentato male - e qui torna il pattern che abbiamo gia visto in altri progetti agentici overhyped, tipo certe demo self-hosted di agenti che non reggono il primo workload reale. La promessa e "Claude Code gratis". Il prodotto e "Claude Code che parla con altri modelli". Sono due affermazioni diverse, e la differenza non e cavillosa: chi installa pensando alla prima rimane fregato sulle aspettative; chi installa capendo la seconda si porta a casa uno strumento utile dentro confini precisi.
Se sei arrivato fin qui probabilmente non vuoi un parere fideistico, vuoi una griglia decisionale concreta. Questa e la mia, calibrata su quello che il repo fa davvero e su come reagisce nei test della community. Decidi tu in quale colonna stai prima di lanciare git clone.
Per chi sceglie la riga "si", una nota operativa sui rate limit: il free tier di NVIDIA NIM e 40 richieste al minuto, e il repo include PROVIDER_RATE_LIMIT=1, PROVIDER_RATE_WINDOW=3, PROVIDER_MAX_CONCURRENCY=5 come default per non farsi bannare. Non toccarle prima di aver letto come Claude Code emette tool call in burst - un agentic loop aggressivo manda venti richieste in due secondi e i 40 RPM evaporano.
# Setup minimo per testare il proxy in modalita routing-misto
export ANTHROPIC_BASE_URL="http://localhost:8082"
export ANTHROPIC_AUTH_TOKEN="dummy" # il proxy ignora questa, usa le sue
# Tier mapping consapevole: locale per task triviali, cheap cloud per medi
export MODEL_HAIKU="ollama/qwen3-coder:7b"
export MODEL_SONNET="openrouter/deepseek/deepseek-v4-flash"
export MODEL_OPUS="nvidia_nim/nvidia/nemotron-3-super-120b-a12b"
# Avvio del proxy (in un altro terminale)
uvicorn main:app --host 127.0.0.1 --port 8082
# A questo punto Claude Code chiama localhost:8082 invece di api.anthropic.com
claudeUna cosa che il README non sottolinea abbastanza: stai consegnando, attraverso il proxy, le chiavi API di tutti i provider che configuri a un processo Python di terze parti. In lan/homelab/dev only e una scelta accettabile. Su un VPS pubblico, esposto e accessibile via rete, no. Bind sempre a 127.0.0.1 e fidati solo se hai letto il codice o segui repository pinning.
Un'ultima cosa che va detta perche gira male sui thread Reddit: Anthropic non ha vietato ne proibito l'uso di gateway con il proprio CLI. Anzi, lo documenta esplicitamente come pratica supportata, raccomandando LiteLLM come gateway di riferimento e citando casi d'uso legittimi: audit, cost control, routing tra modelli Claude su provider diversi (Anthropic API diretta, AWS Bedrock, Google Vertex AI). La sfumatura conta.
Il dettaglio interessante sta in un singolo paragrafo della doc: la model discovery - l'endpoint che popola il selettore di modelli dentro Claude Code - filtra esplicitamente solo i model ID che iniziano per claude o anthropic. Per usare Nemotron o GLM devi mapparli manualmente nelle env var di tier. Tradotto: Anthropic ha disegnato un sistema che supporta i gateway per i suoi modelli su backend diversi, e tollera l'uso oltre i confini senza endorsarlo. Non c'e ostilita, c'e una zona grigia ben costruita.
Cambia anche il framing della discussione: free-claude-code non e un hack contro Anthropic. E un'estensione legittima del meccanismo che Anthropic stessa ha esposto, portata oltre lo scopo previsto. Se tra sei mesi Anthropic decidesse di chiudere il loophole - ad esempio richiedendo che /v1/models ritorni firmate crittograficamente solo le sue - il proxy smetterebbe di funzionare in un pomeriggio. E un altro motivo per non costruirci sopra niente che non sia esplorativo.
Il problema di free-claude-code non e il codice, che fa il suo lavoro. Non e la community, che lo sta usando per quello che e. Non e nemmeno il modello di default - Nemotron-3-Super-120B-A12B e un MoE serio. Il problema e il nome. Quando un repo si chiama "free-claude-code" e arriva in cima ai trending GitHub, la maggioranza delle 29.100 stelle e arrivata pensando di scaricare "Claude Code gratis". Stanno scaricando un proxy che dirotta su altri motori, e molti se ne accorgono solo dopo qualche giorno di task fallite a meta.
Quindi la domanda non riguarda il tool, riguarda te. Stai cercando di evitare la spesa di Anthropic perche il tuo uso e bursty e una API a consumo costerebbe meno di una max subscription? Allora la risposta e cambiare modalita di pagamento, non motore. Stai cercando di testare modelli OSS dentro un workflow agentic che gia padroneggi? Allora il proxy e una scorciatoia legittima, ma tienilo lontano dal lavoro che paga le bollette. Stai cercando "Claude gratis" perche ti sembra troppo caro? Allora il problema non e economico, e di percezione del valore - e quello non lo risolve un proxy.
Tu, lettore con un homelab acceso e un terminale aperto, in quale di queste tre stai davvero?
Fonti: free-claude-code (GitHub), Anthropic - LLM gateway docs, claudefa.st - review free-claude-code, Issue #213 sul repo, Ollama - Claude Code integration, NVIDIA - Nemotron 3 Super, OpenRouter - DeepSeek V4 Flash
| Scenario | Vale il setup? | Perché |
|---|---|---|
| Testare modelli OSS in un CLI agentico familiare | Si | Zero costo di apprendimento, esplori l'ecosistema senza imparare opencode/aider |
| Routing per-tier (Haiku locale, Sonnet cheap, Opus vero) | Si | Caso d'uso forte: orchestrazione consapevole, non sostituzione |
| Risparmiare sulla subscription Claude per il lavoro vero | No | TCO peggiore se conti il tempo di debug e i task da rifare |
| Production code under deadline su task judgment-heavy | No | Tool-calling degradato -> fallimenti silenziosi in catene lunghe |
| Codice proprietario o dati clienti EU | No | I default vanno verso provider US/CN - DPA non sempre presente |
| Solo locale con Ollama o llama.cpp | Forse | Esiste integrazione Ollama nativa v0.14.0+ senza proxy in mezzo |
| Voglio capire come parla la Messages API di Anthropic | Si | Il codice del proxy e leggibile, e una buona didattica |