Agenti AI self-hosted vs cloud: il cervello è lo stesso, cambia solo chi tiene le chiavi

Quando scegli tra Claude Code, Hermes e OpenClaw non stai scegliendo un'intelligenza. Stai scegliendo un guscio.

Il dibattito su quale agente AI self-hosted installare nel proprio homelab è quasi sempre impostato male. Si discute di quale sia "più intelligente", come se l'intelligenza fosse una proprietà dell'agente. Non lo è. Il cervello — il modello che ragiona, scrive codice, decide quale tool chiamare — nel 2026 è una commodity servita dal cloud, intercambiabile e fungibile. Lo stesso modello via OpenRouter può alimentare tutti e tre. Quello che cambi davvero quando scegli l'uno o l'altro è il corpo: il form factor, l'integrazione, chi controlla i tuoi dati e da chi dipendi.

E non è una sfumatura accademica. È la differenza tra avere un agente che vive nel tuo rack always-on e uno che ti hanno appena tolto da sotto i piedi con un aggiornamento dei termini di servizio. Ne abbiamo già parlato analizzando perché l'agente self-hosted promesso non regge alla prova dei fatti: stessa frattura tra promessa e realtà, qui letta dal lato opposto.

Nous Research, autore di Hermes Agent (logo via LobeHub Icons)

La tesi: il cervello è cloud comunque, quindi scegli il corpo

La tesi è questa: per un agente AI davvero capace, il modello locale non è un'opzione, e quindi la scelta tra Claude Code, Hermes e OpenClaw non riguarda la potenza ma il guscio che la avvolge. Il modello è il motore, e il motore lo noleggi dal cloud. Lo dice senza giri di parole Mallory Mejias su Sidecar: l'harness è il prodotto, il modello è il motore al suo interno — importante, ma sempre più intercambiabile.

"The harness is the product. The model is the engine inside it — important, but increasingly interchangeable." — Mallory Mejias, Sidecar

Simon Willison arriva allo stesso punto da un'altra strada. Un coding agent, scrive, è solo "un pezzo di software che fa da harness per un LLM": il pattern è LLM più system prompt più tool in un loop, ottenibile in poche decine di righe sopra una API esistente. Se il valore difendibile fosse il loop, sarebbe già stato copiato da tutti. Il valore sta altrove: in come quel loop si integra nella tua vita, dove gira, cosa può toccare.

Tradotto nei tre nomi sul tavolo. Claude Code è l'harness agentico attorno a Claude: tool per file, ricerca, esecuzione di Bash e git, web, code intelligence. Vive al tuo terminale, è il miglior corpo per scrivere codice — ma è saldato al cervello di Anthropic. Hermes, costruito da Nous Research, è un framework agentico autonomo, licenza MIT, esplicitamente model-agnostic: lo cambi con un comando, "no code changes, no lock-in". Vive sul server, sempre acceso, con cron, memoria persistente e canali Telegram, Discord, Slack, WhatsApp, Signal. OpenClaw, infine, è il terzo termine di paragone: un gateway self-hosted che collega la messaggistica agli agenti, orientato a Ollama e ai modelli locali, dove però il tool calling è obbligatorio — e i suoi limiti li abbiamo già toccati con mano sul LattePanda.

Perché il cervello locale non regge (anche nel mio rack)

Il cervello locale non regge perché l'hardware consumer da homelab non ha la VRAM per i modelli che servono al lavoro agentico serio. È il punto dolente di tutta la narrazione "AI privata in casa", e lo si vede chiaramente sul mio PVE principale: un Ryzen 9 3900X, 12 core e 24 thread, 31 GB di RAM, con una RTX 2070 SUPER da 8 GB. Una scheda Turing più che dignitosa. E completamente inadeguata allo scopo.

Quegli 8 GB hanno uno sweet spot preciso: modelli 7-8B quantizzati a Q4. Un Llama 3.1 8B Q4_K_M occupa circa 4,9 GB, ci sta comodo. Il problema è che i modelli piccoli falliscono regolarmente proprio sul compito che definisce un agente — il tool calling. Invocano tool quando non serve, scelgono quello sbagliato, sputano JSON come testo grezzo. L'eval di Docker su 21 modelli lo quantifica: qwen3:8B-Q4_K_M si ferma a un F1 di 0,919, mentre per avvicinarsi davvero a GPT-4 (0,974) serve qwen3:14B-Q4_K_M, che tocca 0,971.

Classe modello (Q4)7-8B

VRAM richiesta~5-6 GB

Tool calling affidabile?Inaffidabile (F1 ~0,92)

Sta nella 2070S 8GB?Sì

Classe modello (Q4)14B

VRAM richiesta~9-10 GB

Tool calling affidabile?Sì (F1 ~0,97, vicino a GPT-4)

Sta nella 2070S 8GB?No

Classe modello (Q4)32B

VRAM richiesta~20-24 GB

Tool calling affidabile?

Il 14B che serve sta sui 9-10 GB. Fuori dagli 8 GB, senza offload. Significa che la classe di modelli minima per un agente affidabile non entra nemmeno nella mia GPU. Per averla davvero locale servirebbe scendere a compromessi sul context o salire di scheda — i limiti reali dell'inference locale li abbiamo già misurato benchmark alla mano, e non sono opinioni. Questo limite poi l’ho toccato con mano: ho messo Hermes su una RTX 2070 Super e il 4b vola a 110 token al secondo, ma resta fragile come cervello agentico.

Poi c'è il prefill, il vero collo di bottiglia di cui nessuno parla. Processare il prompt iniziale — non generare la risposta, proprio digerire l'input — su CPU è dominato dalla memory bandwidth della RAM consumer, molto inferiore a quella della VRAM. Lo abbiamo visto nel modo più brutale nel test hands-on di OpenClaw sul LattePanda Alpha, CPU-only: il prefill di un system prompt agentico da circa 12K token a ~50 tok/s richiedeva 4-6 minuti. Quattro-sei minuti prima del primo token. Per una chat interattiva è semplicemente inutilizzabile.

E gli harness agentici i system prompt lunghi li hanno per design. Hermes e Claude Code caricano contesto, skill, memoria. Più il guscio è capace, più il prefill pesa. Su CPU è una condanna.

Conclusione scomoda: per un agente serio il cervello resta cloud. E se il cervello è cloud per tutti e tre, allora — di nuovo — ciò che scegli è soltanto il corpo.

Claude Code (Anthropic): potente al terminale, ma legato al modello cloud (logo via LobeHub Icons)

L'obiezione: "ma allora self-host è inutile, prendo il cloud e basta"

L'obiezione più forte alla mia tesi non è "ma un 7B basta" — quella l'ho appena smontata. L'obiezione vera è l'opposto: se il cervello è cloud comunque, perché complicarsi la vita con il self-hosting? Tanto vale prendere il servizio gestito dal vendor e amen. È un'obiezione seria, e ha un fondamento tecnico onesto.

"Gestire LLM in locale significa gestire GPU, driver, aggiornamenti del runtime, artefatti dei modelli, autoscaling, observability, patch di sicurezza... per piccoli team una API gestita può ancora essere più economica e veloce." — Towards Data Science

Vero. Ma confonde due cose diverse. Il self-hosting che conta qui non è far girare il modello in casa — quello l'abbiamo già escluso. È far girare il corpo in casa, mentre il cervello lo noleggi via API. E quel corpo non ha bisogno di GPU. Hermes gira, testuale dal README, su "un VPS da 5 dollari": gli servono Python 3.11, Node, uv, ripgrep, ffmpeg. Niente datacenter. Lo stesso modello frontier che useresti dal cloud lo richiami via OpenRouter, ma il loop, la memoria, i canali, le skill autonome restano tuoi, sul tuo hardware.

Qui la differenza tra i tre corpi smette di essere estetica e diventa politica. Il 9 gennaio 2026 Anthropic ha attivato safeguard server-side che bloccano i token OAuth delle subscription Claude Pro e Max fuori dal client ufficiale. Il 19 febbraio i termini di servizio hanno aggiunto una sezione sull'uso delle credenziali. Dal 4 aprile le subscription non coprono più tool di terze parti, e l'enforcement è partita proprio contro OpenClaw. Chi aveva costruito il proprio flusso agentico sopra Claude via un harness non ufficiale si è ritrovato il tappeto tirato via da sotto i piedi.

Questo è il lock-in nella sua forma più nuda: non un formato di file proprietario, ma il diritto di accendere e spegnere il tuo agente da remoto. Claude Code è un corpo eccellente finché Anthropic vuole. Hermes, MIT e model-agnostic, è un corpo che resta tuo a prescindere da chi vende il cervello questo mese. C'è anche chi self-hostabile lo è ma solo a parole, perché sotto chiede hardware da datacenter — e a quel punto "self-hosted" è un'etichetta, non una libertà.

La sintesi non è una via di mezzo. È un ribaltamento: il self-hosting intelligente nel 2026 non vuol dire portare il cervello in casa — è una battaglia persa sull'hardware consumer. Vuol dire portare in casa il corpo, e affittare il cervello da chi te lo dà migliore, potendolo cambiare quando vuoi. Cloud per la potenza, locale per il controllo. Non l'uno contro l'altro: ciascuno al posto giusto.

Smetti di chiederti quale agente è più intelligente. Sono lo stesso cervello in tre corpi diversi. La domanda giusta è una sola: di chi ti fidi per tenere le chiavi del tuo.

Agenti AI self-hosted vs cloud: il cervello è lo stesso, cambia solo chi tiene le chiavi

Articoli Correlati

AI search vs Google: nessuno sostituisce, tutti smontano

UI-TARS Desktop self-hostable? 32k stelle su GitHub, hardware da datacenter

Commenti (0)

Resta Aggiornato

Headroom compressione contesto LLM: il 90% di token in meno è hype

La tesi: il cervello è cloud comunque, quindi scegli il corpo

Perché il cervello locale non regge (anche nel mio rack)

L'obiezione: "ma allora self-host è inutile, prendo il cloud e basta"

Classe modello (Q4)	VRAM richiesta	Tool calling affidabile?	Sta nella 2070S 8GB?
7-8B	~5-6 GB	Inaffidabile (F1 ~0,92)	Sì
14B	~9-10 GB	Sì (F1 ~0,97, vicino a GPT-4)	No
32B	~20-24 GB	Sì	No
70B	40 GB+	Sì	No