Intelligenza Artificialevoicebox è uno studio vocale AI open source che gira tutto in locale: clona voci, genera speech in oltre venti lingue e dà voce agli agenti AI, senza che un byte audio lasci il tuo dispositivo. L'alternativa self-hosted a ElevenLabs e Wispr Flow.
Intelligenza Artificialevoicebox espone un server MCP nativo: con un comando colleghi Claude Code e l'agente parla con una voce che possiedi, tutto in locale. I 4 tool, le voci per-agente e il verdetto finale della serie.

24 giugno 2026 · 14 min lettura
Come far girare ollama proxmox lxc senza GPU: zstd mancante, systemd da zero, 13-15 t/s reali con llama3.2 su CPU AMD Ryzen.
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Il voice cloning zero-shot di voicebox azzecca il timbro in inglese su clip brevi, ma è fragile sul parlato lungo e non rende l'italiano con la tua voce: per una voce davvero tua e fedele la strada che ha funzionato è una pipeline a due stadi — edge-tts per le parole, RVC per il timbro — fuori da voicebox. Qui racconto cloning, TTS multilingua e dettatura provati con la mia voce: numeri e giudizi all'ascolto inclusi.
Nella Parte 2 voicebox è installato e gira: backend headless sulla RTX 2070 Super, GPU vista dal container, prima voce sintetizzata. La domanda adesso è quella che conta: com'è usarlo davvero? Anticipo la conclusione onesta perché è la più utile — clonare la mia voce è stata la parte più difficile, e la risposta migliore mi ha portato fuori da voicebox. Ci arrivo per gradi.
In voicebox il cloning è zero-shot: niente training, niente attesa di ore. Crei un profilo di tipo cloned, carichi un campione audio e da quel momento puoi usare quel profilo con gli engine che supportano il cloning (Chatterbox, LuxTTS, Qwen3-TTS). Il flusso reale è: POST /profiles per creare il profilo, POST /profiles/{id}/samples per allegare il campione (multipart, con un reference_text che descrive cosa si dice nel campione), poi /speak indicando quel profilo.
Quanto audio serve? Pochi secondi bastano per partire: il cloning zero-shot lavora su 6-10 secondi. Io ho usato un riferimento più generoso, 30 secondi estratti da un mio video YouTube, mono a 24 kHz. Più materiale non fa miracoli sullo zero-shot (non è training), ma dà al modello un appiglio timbrico più stabile.
Due gotcha che ti risparmiano tempo. Il primo: il reference_text conta più di quanto sembri. Alcuni engine — Chatterbox in testa — allineano il testo del campione all'audio del campione, e se passi un reference_text generico invece della trascrizione reale dei tuoi 30 secondi la fedeltà cala. Nel mio caso la trascrizione automatica via /transcribe non è tornata pulita e ho usato un testo generico: funziona, ma è uno dei motivi per cui conviene trascrivere a mano il campione di riferimento. Il secondo: la VRAM si satura se carichi più engine di fila. Generando in sequenza su tre engine di cloning senza scaricare i precedenti, sugli 8 GB la VRAM è salita fino a 7883 MiB, quasi-OOM; i primi due engine sono passati, il terzo (Qwen3-TTS) è andato in stallo bloccato su loading_model. La regola pratica sulla 2070 è una: un engine pesante alla volta, scarica o riavvia il backend tra l'uno e l'altro.
Ecco cosa ha prodotto il cloning della mia voce reale, engine per engine. Chatterbox ha clonato bene in entrambe le lingue: in inglese 4,26 s di audio in 21,42 s (picco VRAM 4291 MiB), in italiano 5,34 s in 4,53 s (picco 4389 MiB). LuxTTS anche: inglese 3,74 s in 7,86 s (picco 5093 MiB), italiano 4,90 s in appena 0,51 s (picco 5121 MiB). Qwen3-TTS 0.6B invece è andato in stallo in entrambe le lingue — in inglese bloccato su loading_model per circa 200 s, in italiano in quasi-OOM con la VRAM a 7883 MiB — ma per la contention di VRAM descritta sopra, non per un limite suo: caricato per primo, in altri test gira.
Qui le misure dicono "OK" ma l'orecchio dice qualcosa di più sfumato. Ho ascoltato i campioni da madrelingua, ed è il giudizio che conta: la qualità di una voce clonata non si misura con un RTF.
In inglese il timbro ci arriva, e fa effetto. Chatterbox riproduce la mia voce in modo sorprendentemente vicino: la prima volta che senti parlare inglese con il tuo timbro, partito da 30 secondi e zero training, è uno di quei momenti in cui il locale non ha niente da invidiare al cloud.
Ma lo zero-shot diretto è fragile, ed è il punto che la documentazione entusiasta tende a saltare. Il cloning diretto di Chatterbox sul mio riferimento clona anche lo stile del campione, e il mio campione è parlato spontaneo, pieno di "ehm" ed esitazioni naturali: il clone se li porta dietro. E su frasi lunghe si destabilizza — allucina parole, entra in loop, degenera. Non è un'impressione: ho passato l'output a Whisper per trascriverlo e su una frase lunga è venuto fuori "…an island… Tamalam… astound 7a…" in loop. Gibberish vero e proprio. Su clip corte e controllate il risultato è buono; su contenuti lunghi, no.
In italiano c'è il problema dell'accento, e non si risolve girando una manopola. Nessuno degli engine zero-shot rende l'italiano con il mio timbro in modo usabile. Chatterbox Multilingual parla italiano e lo scandisce, ma la R la pronuncia all'inglese: la resa è [ɹ] invece di [r]. Ho abbassato cfg_weight da 0.5 a 0.3 per smorzare l'accento generale — l'accento cala, ma la R resta. È un limite di fonema del modello, non un parametro da regolare; gli altri engine multilingua hanno lo stesso problema di cadenza inglese sull'italiano.
Il verdetto onesto su questa parte: il voice cloning zero-shot di voicebox è ottimo per clip brevi in inglese, ma non basta per una voce tua, fedele, in italiano e in forma lunga. Ed è esattamente da qui che parte la parte più interessante.
Mettiamo da parte il cloning e parliamo di sintesi pura, il caso in cui vuoi una bella voce, non necessariamente la tua. Nella Parte 2 c'è il dettaglio completo di VRAM e RTF per engine; qui aggiungo lo strato che i numeri non catturano: come suonano davvero.
Kokoro-82M è buono in inglese e, in italiano, robotico ma nativo: è l'unico senza accento inglese sull'italiano, con un RTF inglese di 0,08. Chatterbox è molto buono in inglese, con accento inglese sull'italiano, RTF intorno a 2,0, espressivo e con tag come [laugh]. Qwen3-TTS 0.6B è buono in inglese, accento inglese sull'italiano, RTF tra 2,0 e 2,25, ma con la qualità multilingua più alta del gruppo. LuxTTS/ZipVoice è il più deludente in inglese (suona "troppo veloce"), ha accento inglese sull'italiano e un RTF italiano di 0,13: velocissimo, ma l'inglese suona strano.
Due conclusioni pratiche. In inglese hai l'imbarazzo della scelta: Chatterbox è bello, Kokoro è solido, Qwen3-TTS suona bene; l'unico deludente è LuxTTS. Una nota di onestà sul rumore di fondo della community: girava la voce di un "accento anime" su Qwen3-TTS in inglese, e all'ascolto non l'ho riscontrato — la voce è buona. È uno di quei claim che si propagano senza verifica e che sul mio hardware non si confermano. In italiano, invece, è un trade-off e non un vincitore: o scegli Kokoro, nativo (l'unica voce senza accento inglese) ma piatto e robotico, oppure uno dei multilingua, più naturali ma con cadenza e accento inglesi marcati. L'opzione "naturale e italiano corretto" tra gli engine integrati non c'è — ed è un limite reale se produci contenuti in italiano.
Come orientarsi: Kokoro quando serve velocità o realtime (RTF 0,08, oltre dodici volte più veloce dell'audio) e per l'italiano "nativo ma neutro"; Qwen3-TTS quando la qualità multilingua conta più della latenza e puoi lavorare in batch; Chatterbox per inglese espressivo; LuxTTS solo se ti serve italiano velocissimo e l'accento non è un problema.
Se l'obiettivo è la tua voce, fedele e in forma lunga, lo zero-shot non basta: l'ho mostrato sopra. La risposta che ha funzionato è una pipeline a due stadi, e merita di stare in questa serie perché è la conclusione hands-on più importante di tutto il lavoro. È lo stesso terreno local-first su cui ho già generato video AI interi in locale con MoneyPrinterTurbo: hardware di casa, zero cloud, e la qualità che si misura provando.
L'idea chiave è capire cosa cambia RVC e cosa no. RVC (Retrieval-based Voice Conversion, via Applio) prende un audio già parlato e ne converte solo il timbro verso una voce su cui l'hai addestrato. Non tocca le parole, non tocca la cadenza, non tocca l'accento: quelli arrivano dalla base che gli dai in pasto. Detto altrimenti: se la base parla un inglese fluente e nativo, l'output sarà la tua voce che parla un inglese fluente e nativo; se la base ha la R sbagliata, te la tieni. Da qui la pipeline vincente:
testo → edge-tts (en-US-AndrewNeural) ← base neurale fluente, parole pulite
→ RVC (modello addestrato sulla mia voce, dataset demucs-pulito)
→ index_rate 0.9, protect 0.25, pitch 0, f0=rmvpe
= la mia voce, inglese vero, naturale, zero "ehm"Il risultato in inglese, all'ascolto, è "quasi perfetto": molto più vicino e stabile del cloning diretto. La prova del nove, di nuovo con Whisper, è netta — l'output edge→RVC viene trascritto "Hi everyone, welcome back to my home lab…", pulito, mentre lo stesso testo con Chatterbox in cloning diretto diventava il gibberish di prima. La differenza non è il timbro (su quello erano vicini) ma la robustezza: edge-tts fornisce parole intelligibili e nessuna esitazione, RVC ci mette sopra il timbro. Spezzare il problema in due è ciò che lo rende affidabile.
Tre lezioni valgono per qualsiasi esperimento RVC, pagate sul campo. Primo: il dataset di training va sempre ripulito dalla voce. Ho separato l'audio dei video con demucs (htdemucs) per togliere musica e rumore di fondo, incluso il rumore della stampante 3D nei miei video: dataset finale circa 23,6 minuti di sola voce, 534 segmenti. Senza questa pulizia l'output esce robotico e senza timbro — il mio primo giro, su dataset sporco, era da buttare. Secondo: la base TTS dev'essere fluente e nativa. Non Kokoro IT (cadenza inglese, è il bug noto #54), non Piper x_low (robotico a 16 kHz): una base mediocre dà output mediocre, perché RVC non corregge la pronuncia. Terzo: `index_rate` è la manopola del timbro. A 0,7 era già "quasi perfetto"; sono salito a 0,9 per avvicinare ancora il timbro, fermandomi prima di 1,0 dove compaiono artefatti metallici.
E l'italiano? Resta la frontiera aperta, onestamente. RVC garantirebbe la R corretta se gli dessi una base italiana nativa e naturale, ma quella base, in locale, non ce l'ho: Kokoro IT ha la cadenza inglese, Piper x_low è robotico, XTTS-v2 è un inferno di dipendenze (coqui-tts pretende una finestra strettissima di transformers). Il mio timbro più la cadenza italiana nativa, tutto in locale, è la cosa che a giugno 2026 non sono ancora riuscito a chiudere. Non è un limite di RVC: manca una buona base TTS italiana locale. La strada per la prossima volta è chiara — una base italiana naturale (Qwen3-TTS italiano generato bene, o XTTS in un ambiente isolato) e poi RVC a index_rate 0,9.
Ho addestrato il modello RVC su due GPU per dare un riferimento sia "homelab tipico" sia "moderno": la 2070 Super del nodo Proxmox e una RTX 5080 Laptop (16 GB, Blackwell). Il preprocess di circa 23 minuti di audio ha richiesto 11,67 s sulla 2070 e 8,72 s sulla 5080. Il training gira a circa 29 s/epoch (batch 8) sulla 2070 e circa 20 s/epoch (batch 16) sulla 5080. L'inference RVC, misurata sulla 5080, fa 2,51 s per 11,1 s di audio: RTF circa 0,23, quasi quattro volte più veloce del realtime. La separazione demucs sulla 5080 costa circa 9 s a traccia.
La 5080 è circa 1,4 volte più veloce per epoch, grazie al batch più grande e alla cache su GPU. Ma il punto è un altro: anche la 2070 Super del 2019 fa il lavoro. Torch su Blackwell (sm_120) ha girato out-of-the-box con torch 2.7.1+cu128, cosa non scontata su una GPU così nuova.
Un gotcha che costa un'ora se non lo conosci: su un'installazione fresca di Applio, se lanci il training subito dopo run-install.sh (senza aver mai avviato l'interfaccia con run-applio.sh), manca assets/config.json e l'estrazione del modello .pth fallisce a ogni epoch (i checkpoint G_*/D_* si salvano, ma il file d'inferenza no). Il fix è una riga, da fare prima di partire: cp assets/config_template.json assets/config.json.
L'altra metà di voicebox è il riconoscimento vocale. La trascrizione gira su Whisper, tutto in locale. L'ho testata via MCP puntando a un file WAV sul server: prima chiamata in 5,40 secondi (include il caricamento del modello Whisper base), output word-perfect tranne il compound Voicebox trascritto come Voice box — parola non da dizionario, comportamento atteso. La qualità STT è ottima.
Una precisazione importante, perché è facile fraintenderla: la dettatura globale — l'hotkey push-to-talk che trascrive direttamente nel campo attivo di qualunque app, con auto-paste — è una feature dell'app desktop Tauri, non disponibile nella modalità headless/server che ho su Proxmox. Sul server il canale è solo l'API/MCP: trascrivi un file o dati base64. Se vuoi la dettatura di sistema "premi-e-parla" ti serve l'app desktop sul tuo computer; se vuoi lo STT dentro il flusso di un agente, il tool MCP (Parte 4) è la strada giusta.
voicebox espone anche altro che in questo giro non ho stressato, e lo dico per onestà invece di riempire il post di numeri inventati: ci sono endpoint per gli effetti post-generazione (pitch, riverbero, filtri), per la generazione lunga con chunking automatico, e uno Stories editor per comporre dialoghi multi-voce. Sono lì, fanno parte del prodotto, ma il focus di questo test era il triangolo cloning / multilingua / dettatura — dove un homelabber decide se lo strumento gli serve o no. Se userò gli effetti in modo serio sarà materiale per un aggiornamento, con misure vere.
voicebox in pratica mantiene gran parte della promessa, con due asterischi onesti. Il TTS multilingua è solido e veloce in inglese; in italiano costringe a scegliere tra nativo-ma-robotico e naturale-ma-con-accento. Il voice cloning zero-shot azzecca il timbro inglese su clip brevi, ma è fragile sul lungo e non chiude l'italiano con la tua voce. La dettatura via Whisper è precisa, ma quella "globale" è solo desktop.
E la lezione più utile è quella che mi ha portato fuori dal recinto: per una voce tua, fedele e robusta, la strada è separare la fluenza dal timbro — una base TTS neurale per le parole, RVC per il timbro. In inglese funziona quasi alla perfezione, in locale, anche su una GPU di sei anni fa. L'italiano resta la frontiera aperta del 2026, e quando si chiuderà lo saprete qui.
Pochi secondi bastano per lo zero-shot: il cloning lavora già su 6-10 secondi. Io ho usato un riferimento da 30 secondi mono a 24 kHz; più materiale non fa miracoli sullo zero-shot, ma dà un appiglio timbrico più stabile.
Nessuno è perfetto. Kokoro è l'unico nativo (senza accento inglese) ma robotico; i multilingua come Chatterbox e Qwen3-TTS sono più naturali ma con cadenza e accento inglesi. È un trade-off, non c'è un vincitore netto.
Non in modo davvero fedele, a giugno 2026. Gli engine zero-shot rendono l'inglese ma sbagliano la pronuncia italiana (la R inglese). La pipeline edge-tts→RVC risolve l'inglese; per l'italiano manca ancora una base TTS locale nativa e naturale.
No. La dettatura globale con hotkey è una feature dell'app desktop Tauri. In modalità headless/server resta la trascrizione via API/MCP su file o base64: funziona benissimo, ma non incolla nel campo attivo di sistema.
Una guida in quattro parti per installare, configurare e usare voicebox in un homelab con Proxmox.
Parte 1 — voicebox: lo studio vocale AI che gira tutto in locale: cos'è, architettura, confronto onesto con ElevenLabs e Wispr Flow, panoramica engine.
Parte 2 — Installare voicebox su Proxmox con GPU passthrough (RTX 2070 Super): LXC bind, il gotcha Debian vs Ubuntu, Python 3.13 con uv, benchmark VRAM reali.
Parte 3 — voicebox in pratica: voice cloning, TTS multilingua e dettatura (questo post): cloning reale, quale engine per quale lingua, la pipeline edge-tts→RVC, dettatura con Whisper.
Parte 4 — Dare voce ai tuoi agenti AI: voicebox + MCP con Claude Code: setup MCP, i quattro tool, voci per-agente, verdetto finale.
Nella Parte 4 chiudiamo il cerchio: colleghiamo voicebox agli agenti AI via MCP e facciamo parlare Claude Code con una voce — il pezzo che trasforma tutto questo da "studio vocale" a "interfaccia".