29 maggio 2026 · 8 min lettura
Intelligenza ArtificialeHo installato MoneyPrinterTurbo con Ollama in locale e generato un video: tempi reali su CPU, voce e sottotitoli ottimi, ma il footage Pexels non c'entra niente. Parte 2.
Intelligenza ArtificialeFree Claude Code spaccia per gratis un proxy che dirotta ANTHROPIC_BASE_URL su 17 backend terzi: claude code alternativa gratis o solo clickbait?

Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
OpenHuman si vende agente AI self-hosted privacy-first, ma il .env manda chat e integrazioni nel cloud: cosa regge come assistente AI locale open source.
Quando scegli tra Claude Code, Hermes e OpenClaw non stai scegliendo un'intelligenza. Stai scegliendo un guscio.
Il dibattito su quale agente AI self-hosted installare nel proprio homelab è quasi sempre impostato male. Si discute di quale sia "più intelligente", come se l'intelligenza fosse una proprietà dell'agente. Non lo è. Il cervello — il modello che ragiona, scrive codice, decide quale tool chiamare — nel 2026 è una commodity servita dal cloud, intercambiabile e fungibile. Lo stesso modello via OpenRouter può alimentare tutti e tre. Quello che cambi davvero quando scegli l'uno o l'altro è il corpo: il form factor, l'integrazione, chi controlla i tuoi dati e da chi dipendi.
E non è una sfumatura accademica. È la differenza tra avere un agente che vive nel tuo rack always-on e uno che ti hanno appena tolto da sotto i piedi con un aggiornamento dei termini di servizio. Ne abbiamo già parlato analizzando perché l'agente self-hosted promesso non regge alla prova dei fatti: stessa frattura tra promessa e realtà, qui letta dal lato opposto.

La tesi è questa: per un agente AI davvero capace, il modello locale non è un'opzione, e quindi la scelta tra Claude Code, Hermes e OpenClaw non riguarda la potenza ma il guscio che la avvolge. Il modello è il motore, e il motore lo noleggi dal cloud. Lo dice senza giri di parole Mallory Mejias su Sidecar: l'harness è il prodotto, il modello è il motore al suo interno — importante, ma sempre più intercambiabile.
"The harness is the product. The model is the engine inside it — important, but increasingly interchangeable." — Mallory Mejias, Sidecar
Simon Willison arriva allo stesso punto da un'altra strada. Un coding agent, scrive, è solo "un pezzo di software che fa da harness per un LLM": il pattern è LLM più system prompt più tool in un loop, ottenibile in poche decine di righe sopra una API esistente. Se il valore difendibile fosse il loop, sarebbe già stato copiato da tutti. Il valore sta altrove: in come quel loop si integra nella tua vita, dove gira, cosa può toccare.
Tradotto nei tre nomi sul tavolo. Claude Code è l'harness agentico attorno a Claude: tool per file, ricerca, esecuzione di Bash e git, web, code intelligence. Vive al tuo terminale, è il miglior corpo per scrivere codice — ma è saldato al cervello di Anthropic. Hermes, costruito da Nous Research, è un framework agentico autonomo, licenza MIT, esplicitamente model-agnostic: lo cambi con un comando, "no code changes, no lock-in". Vive sul server, sempre acceso, con cron, memoria persistente e canali Telegram, Discord, Slack, WhatsApp, Signal. OpenClaw, infine, è il terzo termine di paragone: un gateway self-hosted che collega la messaggistica agli agenti, orientato a Ollama e ai modelli locali, dove però il tool calling è obbligatorio — e i suoi limiti li abbiamo già toccati con mano sul LattePanda.
Il cervello locale non regge perché l'hardware consumer da homelab non ha la VRAM per i modelli che servono al lavoro agentico serio. È il punto dolente di tutta la narrazione "AI privata in casa", e lo si vede chiaramente sul mio PVE principale: un Ryzen 9 3900X, 12 core e 24 thread, 31 GB di RAM, con una RTX 2070 SUPER da 8 GB. Una scheda Turing più che dignitosa. E completamente inadeguata allo scopo.
Quegli 8 GB hanno uno sweet spot preciso: modelli 7-8B quantizzati a Q4. Un Llama 3.1 8B Q4_K_M occupa circa 4,9 GB, ci sta comodo. Il problema è che i modelli piccoli falliscono regolarmente proprio sul compito che definisce un agente — il tool calling. Invocano tool quando non serve, scelgono quello sbagliato, sputano JSON come testo grezzo. L'eval di Docker su 21 modelli lo quantifica: qwen3:8B-Q4_K_M si ferma a un F1 di 0,919, mentre per avvicinarsi davvero a GPT-4 (0,974) serve qwen3:14B-Q4_K_M, che tocca 0,971.
Il 14B che serve sta sui 9-10 GB. Fuori dagli 8 GB, senza offload. Significa che la classe di modelli minima per un agente affidabile non entra nemmeno nella mia GPU. Per averla davvero locale servirebbe scendere a compromessi sul context o salire di scheda — i limiti reali dell'inference locale li abbiamo già misurato benchmark alla mano, e non sono opinioni.
Poi c'è il prefill, il vero collo di bottiglia di cui nessuno parla. Processare il prompt iniziale — non generare la risposta, proprio digerire l'input — su CPU è dominato dalla memory bandwidth della RAM consumer, molto inferiore a quella della VRAM. Lo abbiamo visto nel modo più brutale nel test hands-on di OpenClaw sul LattePanda Alpha, CPU-only: il prefill di un system prompt agentico da circa 12K token a ~50 tok/s richiedeva 4-6 minuti. Quattro-sei minuti prima del primo token. Per una chat interattiva è semplicemente inutilizzabile.
E gli harness agentici i system prompt lunghi li hanno per design. Hermes e Claude Code caricano contesto, skill, memoria. Più il guscio è capace, più il prefill pesa. Su CPU è una condanna.
Conclusione scomoda: per un agente serio il cervello resta cloud. E se il cervello è cloud per tutti e tre, allora — di nuovo — ciò che scegli è soltanto il corpo.

L'obiezione più forte alla mia tesi non è "ma un 7B basta" — quella l'ho appena smontata. L'obiezione vera è l'opposto: se il cervello è cloud comunque, perché complicarsi la vita con il self-hosting? Tanto vale prendere il servizio gestito dal vendor e amen. È un'obiezione seria, e ha un fondamento tecnico onesto.
"Gestire LLM in locale significa gestire GPU, driver, aggiornamenti del runtime, artefatti dei modelli, autoscaling, observability, patch di sicurezza... per piccoli team una API gestita può ancora essere più economica e veloce." — Towards Data Science
Vero. Ma confonde due cose diverse. Il self-hosting che conta qui non è far girare il modello in casa — quello l'abbiamo già escluso. È far girare il corpo in casa, mentre il cervello lo noleggi via API. E quel corpo non ha bisogno di GPU. Hermes gira, testuale dal README, su "un VPS da 5 dollari": gli servono Python 3.11, Node, uv, ripgrep, ffmpeg. Niente datacenter. Lo stesso modello frontier che useresti dal cloud lo richiami via OpenRouter, ma il loop, la memoria, i canali, le skill autonome restano tuoi, sul tuo hardware.
Qui la differenza tra i tre corpi smette di essere estetica e diventa politica. Il 9 gennaio 2026 Anthropic ha attivato safeguard server-side che bloccano i token OAuth delle subscription Claude Pro e Max fuori dal client ufficiale. Il 19 febbraio i termini di servizio hanno aggiunto una sezione sull'uso delle credenziali. Dal 4 aprile le subscription non coprono più tool di terze parti, e l'enforcement è partita proprio contro OpenClaw. Chi aveva costruito il proprio flusso agentico sopra Claude via un harness non ufficiale si è ritrovato il tappeto tirato via da sotto i piedi.
Questo è il lock-in nella sua forma più nuda: non un formato di file proprietario, ma il diritto di accendere e spegnere il tuo agente da remoto. Claude Code è un corpo eccellente finché Anthropic vuole. Hermes, MIT e model-agnostic, è un corpo che resta tuo a prescindere da chi vende il cervello questo mese. C'è anche chi self-hostabile lo è ma solo a parole, perché sotto chiede hardware da datacenter — e a quel punto "self-hosted" è un'etichetta, non una libertà.
La sintesi non è una via di mezzo. È un ribaltamento: il self-hosting intelligente nel 2026 non vuol dire portare il cervello in casa — è una battaglia persa sull'hardware consumer. Vuol dire portare in casa il corpo, e affittare il cervello da chi te lo dà migliore, potendolo cambiare quando vuoi. Cloud per la potenza, locale per il controllo. Non l'uno contro l'altro: ciascuno al posto giusto.
Smetti di chiederti quale agente è più intelligente. Sono lo stesso cervello in tre corpi diversi. La domanda giusta è una sola: di chi ti fidi per tenere le chiavi del tuo.
| Classe modello (Q4) | VRAM richiesta | Tool calling affidabile? | Sta nella 2070S 8GB? |
|---|---|---|---|
| 7-8B | ~5-6 GB | Inaffidabile (F1 ~0,92) | Sì |
| 14B | ~9-10 GB | Sì (F1 ~0,97, vicino a GPT-4) | No |
| 32B | ~20-24 GB | Sì | No |
| 70B | 40 GB+ | Sì | No |