Free Claude Code: cosa fa davvero il proxy 29k stelle

Un repository GitHub con 29mila stelle si chiama free-claude-code. Solo che Claude, dentro, non c'è. C'è il CLI di Anthropic dirottato verso diciassette provider terzi - Nemotron, Gemini, DeepSeek, GLM, Kimi - e il modello di default è un MoE di NVIDIA. Il marchio è stato scollato dal prodotto e ci hanno appiccicato sopra un'altra cosa. Funziona da clickbait perfetto: la parola "Claude" tira, "free" tira ancora di più, l'unione delle due è oro per la timeline.

Il proxy esiste, fa quello che dichiara di fare a livello tecnico - intercetta le chiamate alla Messages API di Anthropic su localhost:8082 e le instrada altrove - ed è anche utile, in casi precisi che vedremo. Ma la promessa "Claude gratis" è un inganno semantico. Smontiamolo, perché la community homelab merita di sapere cosa sta installando.

Non è Claude. È il CLI di Claude con altri motori sotto

Il repo Alishahryar1/free-claude-code e un server FastAPI in Python (MIT, 4.4k fork, 104 issue aperte) che espone tre endpoint - /v1/messages, /v1/messages/count_tokens, /v1/models - gli stessi che Claude Code si aspetta dal protocollo Anthropic. Setti ANTHROPIC_BASE_URL=http://localhost:8082 e da quel momento il CLI ufficiale parla con il proxy invece che con api.anthropic.com.

Il routing è per tier: MODEL_OPUS, MODEL_SONNET, MODEL_HAIKU - tre env var che mappano il tier richiesto dal client a un modello reale nel formato provider/famiglia/nome. Se le lasci vuote, scatta il fallback al default del repo: nvidia_nim/nvidia/nemotron-3-super-120b-a12b. Tradotto: il "Claude" che pensi di star usando è in realtà un Mamba-Transformer ibrido di NVIDIA da 120 miliardi di parametri. Niente di male, ma è un'altra cosa.

Cosa pensi di usareClaude Opus 4.x

Cosa stai usando davvero (default)Nemotron-3-Super-120B-A12B

Provider remotoNVIDIA NIM

Cosa pensi di usareClaude Sonnet 4.x

Cosa stai usando davvero (default)Nemotron-3-Super-120B-A12B (se MODEL_SONNET vuoto)

Provider remotoNVIDIA NIM

Cosa pensi di usareClaude Haiku 4.x

Cosa stai usando davvero (default)Nemotron-3-Super-120B-A12B (se MODEL_HAIKU vuoto)

Provider remotoNVIDIA NIM

Cosa pensi di usareTool calling "Anthropic-grade"

Cosa stai usando davvero (default)Tool calling del modello upstream scelto

Provider remotoVariabile

Cosa pensi di usareContext da 200K+ rifinito

Cosa stai usando davvero (default)32K-128K nella maggior parte dei free tier

Provider remotoVariabile

Cosa pensi di usare	Cosa stai usando davvero (default)	Provider remoto
Claude Opus 4.x	Nemotron-3-Super-120B-A12B	NVIDIA NIM
Claude Sonnet 4.x	Nemotron-3-Super-120B-A12B (se MODEL_SONNET vuoto)	NVIDIA NIM
Claude Haiku 4.x	Nemotron-3-Super-120B-A12B (se MODEL_HAIKU vuoto)	NVIDIA NIM
Tool calling "Anthropic-grade"	Tool calling del modello upstream scelto	Variabile
Context da 200K+ rifinito	32K-128K nella maggior parte dei free tier	Variabile

C'è un dettaglio architetturale che racconta tutto del problema: il repo di default setta CLAUDE_CODE_AUTO_COMPACT_WINDOW=190000. Tradotto, il proxy sa che i modelli a cui sta dirottando il traffico non reggono il context window che Claude Code si aspetta - e prova a comprimerlo aggressivamente prima di passarglielo. È una pezza onesta, e dice anche che la differenza fra "Claude" e "non-Claude" non è marginale.

Per capire perché il valore di Claude sta nel modello e non nell'interfaccia conviene guardare il prezzo reale di Anthropic - ne abbiamo scritto analizzando l'ultima release di Opus 4.7. Quello che paghi quando attivi una max subscription o usi la API a consumo è l'alignment RLHF specifico, il tool-calling rifinito da mesi di iterazione interna, il context utile davvero esteso. Il CLI è solo il vestito. Cambiarlo con un altro motore non è "risparmiare su Claude": è "smettere di usare Claude continuando a usarne il telecomando".

Perché "gratis" è la parola sbagliata

La review più equilibrata in giro su questo proxy l'ha fatta claudefa.st, e contiene la frase che riassume meglio il punto economico: paghi il 2-5% del costo per ottenere il 70-85% del risultato. Detto così sembra un affare. Smette di sembrarlo nel momento in cui aggiungi i costi nascosti: tempo speso a debuggare tool-call malformati, prompt riscritti due volte perché il modello non capisce il contesto compresso, allucinazioni in mezzo a refactor lunghi che ti tocca rifare.

La parte sul tool calling non è teoria. È il motivo per cui un workflow agentico self-hosted serio richiede modelli di un certo livello: Claude Code passa il tempo a chiamare Read, Edit, Bash in catene di dieci, venti, trenta chiamate. Se anche solo il 5% di queste viene emesso male - un argomento JSON malformato, un nome di funzione sbagliato - l'intera task fallisce. Il problema con un proxy che dirotta su Nemotron o GLM è che il fallimento non è uniforme: a volte funziona, a volte no, e tu non sai mai se stai testando il tuo prompt o la fedeltà del backend.

"Tested it in every single default model: GLM 4.7, GLM 5, GLM-5.1, and Kimi K2 ... I also tested turning off and on the thinking on the models, and there was no good response after all." - Issue #213, free-claude-code (27 aprile 2026, chiusa lo stesso giorno dallo stesso autore senza fix dal maintainer)

L'issue è chiusa senza una spiegazione, ed è esattamente il tipo di segnale operativo che dovresti guardare prima di investire ore a configurare un proxy. Non perché il progetto sia fatto male - Alishahryar1 sta gestendo un repo da 29k stelle in solitaria, 104 issue aperte e 54 PR in coda sono fisiologici a quella scala - ma perché ti dice che il problema non è facilmente diagnosticabile. Quando una cosa fallisce attraverso un proxy che astrae diciassette backend diversi, il debug è un incubo combinatorio.

C'è poi il tema della superficie d'attacco. Anthropic stessa, nei suoi docs ufficiali sui gateway, scrive testualmente che "LiteLLM is a third-party proxy service" e "Anthropic doesn't endorse, maintain, or audit LiteLLM's security or functionality" - con tanto di warning attivo sul fatto che "LiteLLM PyPI versions 1.82.7 and 1.82.8 were compromised with credential-stealing malware". free-claude-code non è LiteLLM, ma vive nella stessa categoria di rischio: middleware non auditato che maneggia le tue API key di diciassette provider in un colpo solo.

L'obiezione migliore: "ma a me funziona benissimo"

C'è una contro-tesi onesta e va presa sul serio: per alcuni use case il proxy fa esattamente quello che promette, e il "degrado" che le review più severe stimano in misura significativa non si percepisce. È vero. Su task esecutive - refactor meccanici, rename massivi, generazione di boilerplate, conversione formati, scripting di shell - i modelli upstream del repo reggono. Il salto di qualità di Claude Opus si nota nelle decisioni di design, nel debug di logica complessa, nella scrittura di codice nuovo che richiede contesto largo. Su "rinomina questa variabile in 47 file" Nemotron va benissimo.

C'è poi un secondo use case dove il proxy ha senso e si gioca male da chi lo chiama "Claude gratis": il routing per-tier. Mappare MODEL_HAIKU su Ollama locale (modello veloce, task triviali, zero costo), MODEL_SONNET su DeepSeek V4 Flash a $0.10/$0.20 per milione di token (oltre un milione di token di context window, ottimo rapporto qualità/prezzo), e MODEL_OPUS sull'API Anthropic vera quando serve la qualità reale - qui il proxy diventa davvero utile. Ma chiamalo per quello che è: un gateway di orchestrazione, non un sostituto.

L'uso "smanetta in un homelab" è il caso forte per free-claude-code. Se hai una macchina con 32 GB di RAM in su (sotto, lo swap distrugge l'esperienza agentica) e vuoi testare GLM-4.7 Flash, qwen3-coder, gpt-oss dentro un CLI che già conosci, vale il setup. È un costo di apprendimento azzerato per esplorare l'ecosistema OSS. Se invece il tuo hardware è già impegnato e ti interessa capire prima dove sta il vero costo dei modelli locali - VRAM, consumi, tempo di inferenza reale - vale la pena partire dai numeri di un setup LLM domestico onesto prima di immaginare lo stack.

Resta il caso in cui free-claude-code viene presentato male - e qui torna il pattern che abbiamo già visto in altri progetti agentici overhyped, tipo certe demo self-hosted di agenti che non reggono il primo workload reale. La promessa è "Claude Code gratis". Il prodotto è "Claude Code che parla con altri modelli". Sono due affermazioni diverse, e la differenza non è cavillosa: chi installa pensando alla prima rimane fregato sulle aspettative; chi installa capendo la seconda si porta a casa uno strumento utile dentro confini precisi.

Quando installarlo - una checklist onesta

Se sei arrivato fin qui probabilmente non vuoi un parere fideistico, vuoi una griglia decisionale concreta. Questa è la mia, calibrata su quello che il repo fa davvero e su come reagisce nei test della community. Decidi tu in quale colonna stai prima di lanciare git clone.

ScenarioTestare modelli OSS in un CLI agentico familiare

Vale il setup?Si

PerchéZero costo di apprendimento, esplori l'ecosistema senza imparare opencode/aider

ScenarioRouting per-tier (Haiku locale, Sonnet cheap, Opus vero)

Vale il setup?Si

PerchéCaso d'uso forte: orchestrazione consapevole, non sostituzione

ScenarioRisparmiare sulla subscription Claude per il lavoro vero

Vale il setup?No

PerchéTCO peggiore se conti il tempo di debug e i task da rifare

Scenario

Per chi sceglie la riga "si", una nota operativa sui rate limit: il free tier di NVIDIA NIM è 40 richieste al minuto, e il repo include PROVIDER_RATE_LIMIT=1, PROVIDER_RATE_WINDOW=3, PROVIDER_MAX_CONCURRENCY=5 come default per non farsi bannare. Non toccarle prima di aver letto come Claude Code emette tool call in burst - un agentic loop aggressivo manda venti richieste in due secondi e i 40 RPM evaporano.

bash

# Setup minimo per testare il proxy in modalita routing-misto
export ANTHROPIC_BASE_URL="http://localhost:8082"
export ANTHROPIC_AUTH_TOKEN="dummy"  # il proxy ignora questa, usa le sue

# Tier mapping consapevole: locale per task triviali, cheap cloud per medi
export MODEL_HAIKU="ollama/qwen3-coder:7b"
export MODEL_SONNET="openrouter/deepseek/deepseek-v4-flash"
export MODEL_OPUS="nvidia_nim/nvidia/nemotron-3-super-120b-a12b"

# Avvio del proxy (in un altro terminale)
uvicorn main:app --host 127.0.0.1 --port 8082

# A questo punto Claude Code chiama localhost:8082 invece di api.anthropic.com
claude

Una cosa che il README non sottolinea abbastanza: stai consegnando, attraverso il proxy, le chiavi API di tutti i provider che configuri a un processo Python di terze parti. In lan/homelab/dev only è una scelta accettabile. Su un VPS pubblico, esposto e accessibile via rete, no. Bind sempre a 127.0.0.1 e fidati solo se hai letto il codice o segui repository pinning.

Un'ultima cosa che va detta perché gira male sui thread Reddit: Anthropic non ha vietato né proibito l'uso di gateway con il proprio CLI. Anzi, lo documenta esplicitamente come pratica supportata, raccomandando LiteLLM come gateway di riferimento e citando casi d'uso legittimi: audit, cost control, routing tra modelli Claude su provider diversi (Anthropic API diretta, AWS Bedrock, Google Vertex AI). La sfumatura conta.

Il dettaglio interessante sta in un singolo paragrafo della doc: la model discovery - l'endpoint che popola il selettore di modelli dentro Claude Code - filtra esplicitamente solo i model ID che iniziano per claude o anthropic. Per usare Nemotron o GLM devi mapparli manualmente nelle env var di tier. Tradotto: Anthropic ha disegnato un sistema che supporta i gateway per i suoi modelli su backend diversi, e tollera l'uso oltre i confini senza endorsarlo. Non c'è ostilità, c'è una zona grigia ben costruita.

Cambia anche il framing della discussione: free-claude-code non è un hack contro Anthropic. È un'estensione legittima del meccanismo che Anthropic stessa ha esposto, portata oltre lo scopo previsto. Se tra sei mesi Anthropic decidesse di chiudere il loophole - ad esempio richiedendo che /v1/models ritorni firmate crittograficamente solo le sue - il proxy smetterebbe di funzionare in un pomeriggio. È un altro motivo per non costruirci sopra niente che non sia esplorativo.

La domanda giusta da farsi

Il problema di free-claude-code non è il codice, che fa il suo lavoro. Non è la community, che lo sta usando per quello che è. Non è nemmeno il modello di default - Nemotron-3-Super-120B-A12B è un MoE serio. Il problema è il nome. Quando un repo si chiama "free-claude-code" e arriva in cima ai trending GitHub, la maggioranza delle 29.100 stelle è arrivata pensando di scaricare "Claude Code gratis". Stanno scaricando un proxy che dirotta su altri motori, e molti se ne accorgono solo dopo qualche giorno di task fallite a metà.

Quindi la domanda non riguarda il tool, riguarda te. Stai cercando di evitare la spesa di Anthropic perché il tuo uso è bursty e una API a consumo costerebbe meno di una max subscription? Allora la risposta è cambiare modalità di pagamento, non motore. Stai cercando di testare modelli OSS dentro un workflow agentic che già padroneggi? Allora il proxy è una scorciatoia legittima, ma tienilo lontano dal lavoro che paga le bollette. Stai cercando "Claude gratis" perché ti sembra troppo caro? Allora il problema non è economico, è di percezione del valore - e quello non lo risolve un proxy.

Tu, lettore con un homelab acceso e un terminale aperto, in quale di queste tre stai davvero?

Fonti: free-claude-code (GitHub), Anthropic - LLM gateway docs, claudefa.st - review free-claude-code, Issue #213 sul repo, Ollama - Claude Code integration, NVIDIA - Nemotron 3 Super, OpenRouter - DeepSeek V4 Flash

Free Claude Code, 29k stelle su GitHub: ma di Claude non c'è niente

Articoli Correlati

Agente AI self-hosted? OpenHuman lo promette, il suo .env dice no

Modelli AI economici homelab, ecco perché non risparmi un euro

Commenti (0)

Resta Aggiornato

MoneyPrinterTurbo alla prova: 229 secondi per un video AI in locale (Parte 2)

Non è Claude. È il CLI di Claude con altri motori sotto

Perché "gratis" è la parola sbagliata

L'obiezione migliore: "ma a me funziona benissimo"

Quando installarlo - una checklist onesta

La domanda giusta da farsi

Scenario	Vale il setup?	Perché
Testare modelli OSS in un CLI agentico familiare	Si	Zero costo di apprendimento, esplori l'ecosistema senza imparare opencode/aider
Routing per-tier (Haiku locale, Sonnet cheap, Opus vero)	Si	Caso d'uso forte: orchestrazione consapevole, non sostituzione
Risparmiare sulla subscription Claude per il lavoro vero	No	TCO peggiore se conti il tempo di debug e i task da rifare
Production code under deadline su task judgment-heavy	No	Tool-calling degradato -> fallimenti silenziosi in catene lunghe
Codice proprietario o dati clienti EU	No	I default vanno verso provider US/CN - DPA non sempre presente
Solo locale con Ollama o llama.cpp	Forse	Esiste integrazione Ollama nativa v0.14.0+ senza proxy in mezzo
Voglio capire come parla la Messages API di Anthropic	Si	Il codice del proxy è leggibile, è una buona didattica