Intelligenza Artificialevoicebox espone un server MCP nativo: con un comando colleghi Claude Code e l'agente parla con una voce che possiedi, tutto in locale. I 4 tool, le voci per-agente e il verdetto finale della serie.
Intelligenza ArtificialeIl voice cloning zero-shot di voicebox azzecca il timbro inglese su clip brevi ma non rende l'italiano con la tua voce: la pipeline edge-tts→RVC è la strada che funziona davvero. Cloning, TTS multilingua e dettatura alla prova.

24 giugno 2026 · 11 min lettura
MoneyPrinterTurbo con Ollama self-hosting: cos'è, feature e setup Docker per generare video AI in locale gratis. Parte 1, con un asterisco su Pexels.
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
voicebox è uno studio vocale AI open source (licenza MIT) che gira interamente in locale: clona voci, genera speech in oltre venti lingue, detta testo in qualunque app e dà voce agli agenti AI — senza che un byte audio lasci il tuo dispositivo. È l'alternativa self-hosted ai servizi cloud come ElevenLabs (sintesi e cloning) e Wispr Flow (dettatura). Questa è la Parte 1 di una serie in quattro puntate: qui vediamo cos'è, com'è fatto e quando conviene davvero.
C'è una categoria di strumenti AI dove il cloud ha dominato in modo quasi incontrastato: la voce. Sintesi vocale realistica, clonazione della voce, dettatura intelligente — per anni il riferimento sono stati servizi come ElevenLabs o Wispr Flow, con abbonamenti mensili, dati audio che finiscono sui server di qualcun altro e un costo che scala con il volume d'uso.
voicebox è un progetto open source (licenza MIT) che prova a spostare tutto questo sull'hardware che già hai. Creato da Jamie Pine — il developer canadese autore di Spacedrive, il file manager open source cross-platform in Rust — ha raggiunto circa 32.700 stelle su GitHub a giugno 2026 partendo praticamente da zero pochi mesi prima. Non è hype: è un segnale che il problema che risolve è reale.
Nelle parti successive lo installeremo su Proxmox con GPU passthrough, lo useremo in pratica per clonare una voce e lo collegheremo agli agenti AI via MCP. Qui costruiamo le fondamenta.
voicebox copre quattro scenari distinti con un'unica installazione.
Voice cloning. Carichi un campione audio di pochi secondi e ottieni un profilo voce utilizzabile per la sintesi. Zero-shot, nessun training lungo.
Text-to-speech. Dai testo in input, ottieni audio con la voce clonata o una delle voci preset. Selezioni l'engine in base al trade-off che preferisci tra qualità, velocità e consumo VRAM.
Dettatura globale. Un hotkey globale attiva il microfono, Whisper trascrive in locale e il testo finisce nel campo attivo, qualunque app tu stia usando. Opzionale: un LLM locale (Qwen3) raffina il testo prima di incollarlo.
Voce per gli agenti AI. voicebox espone un server MCP nativo. Gli agenti compatibili — Claude Code, Cursor, Cline — possono chiamare voicebox.speak per parlare a voce e voicebox.transcribe per trascrivere audio. È il tema della Parte 4.
Il vantaggio principale non è il risparmio economico: è la privacy strutturale. Quando usi ElevenLabs, i tuoi dati vocali vengono processati su infrastruttura cloud di terze parti. La privacy policy (giugno 2026) concede a ElevenLabs una licenza per usare quei dati per migliorare il servizio, con un opt-out disponibile ma da attivare a mano. Con voicebox il file audio non lascia mai la macchina: non c'è nulla da cui fare opt-out, perché non c'è nessun upload. È lo stesso principio di privacy strutturale che ho già raccontato parlando di cosa espone davvero un LLM in locale.
Il costo marginale è zero dopo il setup. Con ElevenLabs il piano Starter costa 6 $/mese per 30.000 crediti (circa un carattere per credito), il Creator 22 $/mese per 121.000 crediti, il Pro 99 $/mese per 600.000 crediti (prezzi giugno 2026). Se generi tanto audio — per un podcast, un canale YouTube, della documentazione — il costo scala. Con voicebox il costo incrementale per ogni carattere in più è quello elettrico dell'hardware che già possiedi: la stessa matematica che ho applicato ai costi reali dell'AI locale.
Niente lock-in, infine: puoi cambiare engine, aggiornarli o tenerli fermi su una versione che funziona, senza aspettare che il vendor decida cosa cambiare alla prossima iterazione.
Detto questo, il confronto onesto impone di riconoscere i contro. La qualità del Professional Voice Cloning di ElevenLabs su campioni brevi è ancora superiore rispetto ai modelli open source correnti: se ti serve clonare una voce da tre secondi di audio con risultati broadcast-ready, il cloud ha ancora un vantaggio misurabile. E poi c'è la manutenzione: nessun SLA, nessun supporto commerciale, i modelli li gestisci tu. Per chi ha un homelab è la normalità; per chi vuole un prodotto che funziona senza pensarci, il cloud ha ancora senso.
voicebox è un'app Tauri per desktop (Windows e macOS), con un backend FastAPI in Python che gestisce tutta la logica AI. Il frontend React/TypeScript comunica col backend sulla porta 17493. Per chi preferisce installarlo su un server o in un container esiste un percorso Docker headless: docker compose up -d e la UI è raggiungibile via browser su http://localhost:17493. È la modalità che useremo su Proxmox nella Parte 2.
Il backend sceglie il device in cascata: CUDA (NVIDIA) → XPU (Intel Arc) → DirectML (Windows generico) → CPU come fallback, con supporto ad Apple Silicon via MLX. Su Linux con NVIDIA la via maestra è CUDA, e PyTorch porta con sé il runtime: non serve installare il CUDA Toolkit separatamente.
Gli engine TTS e STT sono moduli indipendenti. voicebox li scarica da HuggingFace al primo utilizzo e li mette in cache in un volume dedicato (voicebox-data). Il path è sovrascrivibile con VOICEBOX_MODELS_DIR, utile per condividere i modelli tra più container o puntare a un NAS.
Una panoramica pratica per chi deve scegliere, senza la tabella ma con tutti i numeri.
Costo. voicebox: setup una tantum più il costo elettrico dell'hardware che già hai. ElevenLabs: da gratis fino a 990 $/mese a seconda del piano (giugno 2026). Wispr Flow: gratis fino a 2000 parole a settimana, oppure 15 $/mese per il piano Pro.
Privacy. voicebox: l'audio non lascia mai il dispositivo. ElevenLabs: elaborazione cloud, con licenza d'uso dei dati e opt-out manuale. Wispr Flow: cloud, audio processato dalla pipeline Wispr.
Qualità del TTS. voicebox: da buona a ottima a seconda dell'engine. ElevenLabs: ottima, è il riferimento commerciale. Wispr Flow: non applicabile, fa solo trascrizione.
Voice cloning. voicebox: zero-shot, qualità variabile per engine. ElevenLabs: Professional Cloning superiore sui campioni brevi. Wispr Flow: non lo fa.
Dettatura (STT). voicebox: Whisper in locale, nessun limite di parole. ElevenLabs: non applicabile. Wispr Flow: sì, veloce e consapevole dell'app attiva.
Lingue. voicebox: dipende dall'engine, da 8 (Kokoro) a 23 (Chatterbox) per il TTS e oltre 100 per la trascrizione Whisper. ElevenLabs: ampio supporto multilingua. Wispr Flow: principalmente inglese, altre lingue in beta.
Latenza. voicebox: dipende dall'hardware. ElevenLabs: edge server, millisecondi bassi garantiti. Wispr Flow: cloud rapido.
Dove gira. voicebox: il tuo hardware, la tua rete. ElevenLabs e Wispr Flow: i rispettivi server.
MCP per agenti. voicebox: nativo, quattro tool. ElevenLabs: showcase disponibile. Wispr Flow: non disponibile.
La sintesi: il cloud vince su qualità di punta e latenza garantita; il locale vince su privacy, costo a volume e integrazione con gli agenti.
voicebox integra otto backend TTS distinti (sette elencati nel README, con alcune varianti separate nel codice), più Whisper per la dettatura. Non sono equivalenti e non girano tutti bene sullo stesso hardware.
Kokoro-82M è il più leggero: 82 milioni di parametri, 8 lingue incluso l'italiano, 54 voci preset, licenza Apache 2.0. Funziona in tempo reale anche su CPU e su GPU occupa pochissima VRAM, attorno a 1,3 GB. È il punto di partenza consigliato per testare senza impegnare tutta la scheda.
LuxTTS (ZipVoice) punta tutto su velocità estrema e consumo minimo: circa 1 GB di VRAM secondo il README di voicebox, audio a 48 kHz. Supporta lo zero-shot voice cloning, ma gli stessi sviluppatori dichiarano che la qualità del cloning non è ancora ai livelli dei modelli top — un'onestà rara, da apprezzare.
Qwen3-TTS di Alibaba è disponibile in due taglie (0.6B e 1.7B) e in una variante con 9 voci preset senza cloning. Supporta 10 lingue tra cui italiano, cinese con dialetti e giapponese: ottimo per testi in lingue non inglesi. La licenza è la proprietaria Qwen License Agreement, che permette l'uso commerciale con limitazioni — controlla il file LICENSE prima di usarlo in produzione.
Chatterbox e Chatterbox Turbo (Resemble AI, licenza MIT) sono i modelli che hanno fatto più rumore. Chatterbox Multilingual supporta 23 lingue con zero-shot voice cloning e tag paralinguistici come [laugh] e [cough]; Chatterbox Turbo è solo inglese ma più leggero. Esiste un blind test in cui Chatterbox supera ElevenLabs per naturalezza, ma quel test è stato commissionato da Resemble AI stessa a Podonos: non è un risultato indipendente, va preso di conseguenza.
HumeAI TADA (Text-Acoustic Dual Alignment) è il più tecnico del lotto: un'architettura che allinea direttamente token testuali e token audio. Esiste in due varianti — TADA 1B (solo inglese, base Llama 3.2 1B) e TADA 3B-ml (multilingua, circa 4B parametri totali) — con un RTF dichiarato di 0.09, oltre cinque volte più veloce di altri TTS basati su LLM. Anticipo la Parte 2: sulla 2070 si è rivelato impraticabile.
Whisper (STT) è il modello di trascrizione di OpenAI. voicebox ne supporta più dimensioni, da Tiny a Large più la variante Turbo: quest'ultima ha il decoder ridotto a 4 layer rispetto al Large-v3 completo, con velocità sei volte superiore e perdita di accuratezza entro l'1-2%. Copre oltre 100 lingue.
Per le "personalità" vocali — dove un LLM riscrive il testo prima di sintetizzarlo — voicebox usa Qwen3 nelle varianti 0.6B, 1.7B e 4B: un modello leggero, locale, che rende l'output più naturale e in-character.
voicebox funziona anche su CPU, con Kokoro come engine garantito per il realtime. Ma per avere latenze ragionevoli sugli engine più pesanti serve una GPU con CUDA.
La domanda pratica è una: 8 GB di VRAM bastano? La RTX 2070 Super è una scheda di fascia media per gli standard AI, e la VRAM realmente disponibile è leggermente inferiore a quella nominale per via dell'overhead del driver e dei buffer CUDA. La risposta breve — che la Parte 2 documenta numeri alla mano — è che bastano per quasi tutto. Gli engine leggeri come Kokoro (circa 1,3 GB) e LuxTTS stanno larghissimi; la sorpresa è che anche i modelli più grossi entrano negli 8 GB: Chatterbox Multilingual, dato da varie fonti a 8-16 GB, sul campo ne ha occupati circa 5, e Chatterbox Turbo poco più. Il vero limite non è la capienza ma la velocità di generazione. L'unica eccezione è TADA, impraticabile su questa fascia di GPU.
Se hai 8 GB — come sulla RTX 2070 Super — la scelta dell'engine conta soprattutto per velocità e qualità, non per la capienza. Nella Parte 2 installiamo voicebox su Proxmox con GPU passthrough via LXC bind e vediamo esattamente cosa gira e cosa no su quella configurazione. È lo stesso approccio local-first con cui ho già messo in piedi video AI a costo zero con MoneyPrinterTurbo: hardware di casa, zero cloud.
Sì. È open source con licenza MIT: si scarica e si usa senza costi di licenza. L'unico costo è l'hardware che già possiedi e la corrente per farlo girare.
Sì. Gira anche su CPU: l'engine Kokoro sintetizza in tempo reale anche senza scheda video. Per gli engine più pesanti e per la latenza migliore serve però una GPU con CUDA.
Dipende dall'engine TTS: da 8 (Kokoro) a 23 (Chatterbox Multilingual), italiano incluso. La trascrizione Whisper copre oltre 100 lingue.
Dipende dall'uso. Per privacy, costo a volume e assenza di lock-in vince il locale; per il voice cloning professionale su campioni di pochi secondi ElevenLabs ha ancora un margine di qualità misurabile.
Una guida in quattro parti per installare, configurare e usare voicebox in un homelab con Proxmox.
Parte 1 — voicebox: lo studio vocale AI che gira tutto in locale (questo post): cos'è, architettura, confronto onesto con ElevenLabs e Wispr Flow, panoramica engine.
Parte 2 — Installare voicebox su Proxmox con GPU passthrough (RTX 2070 Super): LXC bind, il gotcha Debian vs Ubuntu, Python 3.13 con uv, benchmark VRAM reali.
Parte 3 — voicebox in pratica: voice cloning, TTS multilingua e dettatura: cloning reale, quale engine per quale lingua, la pipeline edge-tts→RVC, dettatura con Whisper.
Parte 4 — Dare voce ai tuoi agenti AI: voicebox + MCP con Claude Code: setup MCP, i quattro tool, voci per-agente, verdetto finale.
La Parte 2 parte dal nodo Proxmox già in produzione con la RTX 2070 Super e i driver NVIDIA già installati sull'host. Vedremo perché su questa configurazione il percorso è LXC bind — senza IOMMU/VFIO, senza reboot — e come far girare PyTorch CUDA dentro un container Debian senza impazzire con le versioni.