voicebox: lo studio vocale AI che gira tutto in locale

Antonio Distefano

24 giugno 2026 · 11 min lettura

Parte 1 di 4 nella serie: voicebox Masterclass

1voicebox: lo studio vocale AI che gira tutto in locale
2Installare voicebox su Proxmox con GPU passthrough (RTX 2070 Super)
3voicebox in pratica: voice cloning, TTS multilingua e dettatura
4Dare voce ai tuoi agenti AI: voicebox + MCP con Claude Code

#self-hosting #open-source #Voicebox #Tts #Whisper #AI locale #Voice Cloning

Reagisci

Commenti (0)

Lascia un Commento

voicebox: lo studio vocale AI che gira tutto in locale

voicebox è uno studio vocale AI open source (licenza MIT) che gira interamente in locale: clona voci, genera speech in oltre venti lingue, detta testo in qualunque app e dà voce agli agenti AI — senza che un byte audio lasci il tuo dispositivo. È l'alternativa self-hosted ai servizi cloud come ElevenLabs (sintesi e cloning) e Wispr Flow (dettatura). Questa è la Parte 1 di una serie in quattro puntate: qui vediamo cos'è, com'è fatto e quando conviene davvero.

Il contesto: la voce è rimasta l'ultimo bastione del cloud

C'è una categoria di strumenti AI dove il cloud ha dominato in modo quasi incontrastato: la voce. Sintesi vocale realistica, clonazione della voce, dettatura intelligente — per anni il riferimento sono stati servizi come ElevenLabs o Wispr Flow, con abbonamenti mensili, dati audio che finiscono sui server di qualcun altro e un costo che scala con il volume d'uso.

voicebox è un progetto open source (licenza MIT) che prova a spostare tutto questo sull'hardware che già hai. Creato da Jamie Pine — il developer canadese autore di Spacedrive, il file manager open source cross-platform in Rust — ha raggiunto circa 32.700 stelle su GitHub a giugno 2026 partendo praticamente da zero pochi mesi prima. Non è hype: è un segnale che il problema che risolve è reale.

Nelle parti successive lo installeremo su Proxmox con GPU passthrough, lo useremo in pratica per clonare una voce e lo collegheremo agli agenti AI via MCP. Qui costruiamo le fondamenta.

Cosa fa, in concreto

voicebox copre quattro scenari distinti con un'unica installazione.

Voice cloning. Carichi un campione audio di pochi secondi e ottieni un profilo voce utilizzabile per la sintesi. Zero-shot, nessun training lungo.

Text-to-speech. Dai testo in input, ottieni audio con la voce clonata o una delle voci preset. Selezioni l'engine in base al trade-off che preferisci tra qualità, velocità e consumo VRAM.

Dettatura globale. Un hotkey globale attiva il microfono, Whisper trascrive in locale e il testo finisce nel campo attivo, qualunque app tu stia usando. Opzionale: un LLM locale (Qwen3) raffina il testo prima di incollarlo.

Voce per gli agenti AI. voicebox espone un server MCP nativo. Gli agenti compatibili — Claude Code, Cursor, Cline — possono chiamare voicebox.speak per parlare a voce e voicebox.transcribe per trascrivere audio. È il tema della Parte 4.

Perché "tutto in locale" conta — e dove non basta

Il vantaggio principale non è il risparmio economico: è la privacy strutturale. Quando usi ElevenLabs, i tuoi dati vocali vengono processati su infrastruttura cloud di terze parti. La privacy policy (giugno 2026) concede a ElevenLabs una licenza per usare quei dati per migliorare il servizio, con un opt-out disponibile ma da attivare a mano. Con voicebox il file audio non lascia mai la macchina: non c'è nulla da cui fare opt-out, perché non c'è nessun upload. È lo stesso principio di privacy strutturale che ho già raccontato parlando di cosa espone davvero un LLM in locale.

Il costo marginale è zero dopo il setup. Con ElevenLabs il piano Starter costa 6 $/mese per 30.000 crediti (circa un carattere per credito), il Creator 22 $/mese per 121.000 crediti, il Pro 99 $/mese per 600.000 crediti (prezzi giugno 2026). Se generi tanto audio — per un podcast, un canale YouTube, della documentazione — il costo scala. Con voicebox il costo incrementale per ogni carattere in più è quello elettrico dell'hardware che già possiedi: la stessa matematica che ho applicato ai costi reali dell'AI locale.

Niente lock-in, infine: puoi cambiare engine, aggiornarli o tenerli fermi su una versione che funziona, senza aspettare che il vendor decida cosa cambiare alla prossima iterazione.

Detto questo, il confronto onesto impone di riconoscere i contro. La qualità del Professional Voice Cloning di ElevenLabs su campioni brevi è ancora superiore rispetto ai modelli open source correnti: se ti serve clonare una voce da tre secondi di audio con risultati broadcast-ready, il cloud ha ancora un vantaggio misurabile. E poi c'è la manutenzione: nessun SLA, nessun supporto commerciale, i modelli li gestisci tu. Per chi ha un homelab è la normalità; per chi vuole un prodotto che funziona senza pensarci, il cloud ha ancora senso.

Architettura: cosa gira sotto il cofano

voicebox è un'app Tauri per desktop (Windows e macOS), con un backend FastAPI in Python che gestisce tutta la logica AI. Il frontend React/TypeScript comunica col backend sulla porta 17493. Per chi preferisce installarlo su un server o in un container esiste un percorso Docker headless: docker compose up -d e la UI è raggiungibile via browser su http://localhost:17493. È la modalità che useremo su Proxmox nella Parte 2.

Il backend sceglie il device in cascata: CUDA (NVIDIA) → XPU (Intel Arc) → DirectML (Windows generico) → CPU come fallback, con supporto ad Apple Silicon via MLX. Su Linux con NVIDIA la via maestra è CUDA, e PyTorch porta con sé il runtime: non serve installare il CUDA Toolkit separatamente.

Gli engine TTS e STT sono moduli indipendenti. voicebox li scarica da HuggingFace al primo utilizzo e li mette in cache in un volume dedicato (voicebox-data). Il path è sovrascrivibile con VOICEBOX_MODELS_DIR, utile per condividere i modelli tra più container o puntare a un NAS.

voicebox vs ElevenLabs vs Wispr Flow: il confronto, punto per punto

Una panoramica pratica per chi deve scegliere, senza la tabella ma con tutti i numeri.

Costo. voicebox: setup una tantum più il costo elettrico dell'hardware che già hai. ElevenLabs: da gratis fino a 990 $/mese a seconda del piano (giugno 2026). Wispr Flow: gratis fino a 2000 parole a settimana, oppure 15 $/mese per il piano Pro.

Privacy. voicebox: l'audio non lascia mai il dispositivo. ElevenLabs: elaborazione cloud, con licenza d'uso dei dati e opt-out manuale. Wispr Flow: cloud, audio processato dalla pipeline Wispr.

Qualità del TTS. voicebox: da buona a ottima a seconda dell'engine. ElevenLabs: ottima, è il riferimento commerciale. Wispr Flow: non applicabile, fa solo trascrizione.

Voice cloning. voicebox: zero-shot, qualità variabile per engine. ElevenLabs: Professional Cloning superiore sui campioni brevi. Wispr Flow: non lo fa.

Dettatura (STT). voicebox: Whisper in locale, nessun limite di parole. ElevenLabs: non applicabile. Wispr Flow: sì, veloce e consapevole dell'app attiva.

Lingue. voicebox: dipende dall'engine, da 8 (Kokoro) a 23 (Chatterbox) per il TTS e oltre 100 per la trascrizione Whisper. ElevenLabs: ampio supporto multilingua. Wispr Flow: principalmente inglese, altre lingue in beta.

Latenza. voicebox: dipende dall'hardware. ElevenLabs: edge server, millisecondi bassi garantiti. Wispr Flow: cloud rapido.

Dove gira. voicebox: il tuo hardware, la tua rete. ElevenLabs e Wispr Flow: i rispettivi server.

MCP per agenti. voicebox: nativo, quattro tool. ElevenLabs: showcase disponibile. Wispr Flow: non disponibile.

La sintesi: il cloud vince su qualità di punta e latenza garantita; il locale vince su privacy, costo a volume e integrazione con gli agenti.

Gli engine: una carrellata onesta

voicebox integra otto backend TTS distinti (sette elencati nel README, con alcune varianti separate nel codice), più Whisper per la dettatura. Non sono equivalenti e non girano tutti bene sullo stesso hardware.

Kokoro-82M è il più leggero: 82 milioni di parametri, 8 lingue incluso l'italiano, 54 voci preset, licenza Apache 2.0. Funziona in tempo reale anche su CPU e su GPU occupa pochissima VRAM, attorno a 1,3 GB. È il punto di partenza consigliato per testare senza impegnare tutta la scheda.

LuxTTS (ZipVoice) punta tutto su velocità estrema e consumo minimo: circa 1 GB di VRAM secondo il README di voicebox, audio a 48 kHz. Supporta lo zero-shot voice cloning, ma gli stessi sviluppatori dichiarano che la qualità del cloning non è ancora ai livelli dei modelli top — un'onestà rara, da apprezzare.

Qwen3-TTS di Alibaba è disponibile in due taglie (0.6B e 1.7B) e in una variante con 9 voci preset senza cloning. Supporta 10 lingue tra cui italiano, cinese con dialetti e giapponese: ottimo per testi in lingue non inglesi. La licenza è la proprietaria Qwen License Agreement, che permette l'uso commerciale con limitazioni — controlla il file LICENSE prima di usarlo in produzione.

Chatterbox e Chatterbox Turbo (Resemble AI, licenza MIT) sono i modelli che hanno fatto più rumore. Chatterbox Multilingual supporta 23 lingue con zero-shot voice cloning e tag paralinguistici come [laugh] e [cough]; Chatterbox Turbo è solo inglese ma più leggero. Esiste un blind test in cui Chatterbox supera ElevenLabs per naturalezza, ma quel test è stato commissionato da Resemble AI stessa a Podonos: non è un risultato indipendente, va preso di conseguenza.

HumeAI TADA (Text-Acoustic Dual Alignment) è il più tecnico del lotto: un'architettura che allinea direttamente token testuali e token audio. Esiste in due varianti — TADA 1B (solo inglese, base Llama 3.2 1B) e TADA 3B-ml (multilingua, circa 4B parametri totali) — con un RTF dichiarato di 0.09, oltre cinque volte più veloce di altri TTS basati su LLM. Anticipo la Parte 2: sulla 2070 si è rivelato impraticabile.

Whisper (STT) è il modello di trascrizione di OpenAI. voicebox ne supporta più dimensioni, da Tiny a Large più la variante Turbo: quest'ultima ha il decoder ridotto a 4 layer rispetto al Large-v3 completo, con velocità sei volte superiore e perdita di accuratezza entro l'1-2%. Copre oltre 100 lingue.

Per le "personalità" vocali — dove un LLM riscrive il testo prima di sintetizzarlo — voicebox usa Qwen3 nelle varianti 0.6B, 1.7B e 4B: un modello leggero, locale, che rende l'output più naturale e in-character.

Hardware: quanta VRAM serve davvero

voicebox funziona anche su CPU, con Kokoro come engine garantito per il realtime. Ma per avere latenze ragionevoli sugli engine più pesanti serve una GPU con CUDA.

La domanda pratica è una: 8 GB di VRAM bastano? La RTX 2070 Super è una scheda di fascia media per gli standard AI, e la VRAM realmente disponibile è leggermente inferiore a quella nominale per via dell'overhead del driver e dei buffer CUDA. La risposta breve — che la Parte 2 documenta numeri alla mano — è che bastano per quasi tutto. Gli engine leggeri come Kokoro (circa 1,3 GB) e LuxTTS stanno larghissimi; la sorpresa è che anche i modelli più grossi entrano negli 8 GB: Chatterbox Multilingual, dato da varie fonti a 8-16 GB, sul campo ne ha occupati circa 5, e Chatterbox Turbo poco più. Il vero limite non è la capienza ma la velocità di generazione. L'unica eccezione è TADA, impraticabile su questa fascia di GPU.

Se hai 8 GB — come sulla RTX 2070 Super — la scelta dell'engine conta soprattutto per velocità e qualità, non per la capienza. Nella Parte 2 installiamo voicebox su Proxmox con GPU passthrough via LXC bind e vediamo esattamente cosa gira e cosa no su quella configurazione. È lo stesso approccio local-first con cui ho già messo in piedi video AI a costo zero con MoneyPrinterTurbo: hardware di casa, zero cloud.

Domande frequenti

voicebox è gratis?

Sì. È open source con licenza MIT: si scarica e si usa senza costi di licenza. L'unico costo è l'hardware che già possiedi e la corrente per farlo girare.

voicebox funziona senza una GPU?

Sì. Gira anche su CPU: l'engine Kokoro sintetizza in tempo reale anche senza scheda video. Per gli engine più pesanti e per la latenza migliore serve però una GPU con CUDA.

Quante lingue supporta voicebox?

Dipende dall'engine TTS: da 8 (Kokoro) a 23 (Chatterbox Multilingual), italiano incluso. La trascrizione Whisper copre oltre 100 lingue.

voicebox è meglio di ElevenLabs?

Dipende dall'uso. Per privacy, costo a volume e assenza di lock-in vince il locale; per il voice cloning professionale su campioni di pochi secondi ElevenLabs ha ancora un margine di qualità misurabile.

La serie completa

Una guida in quattro parti per installare, configurare e usare voicebox in un homelab con Proxmox.

Parte 1 — voicebox: lo studio vocale AI che gira tutto in locale (questo post): cos'è, architettura, confronto onesto con ElevenLabs e Wispr Flow, panoramica engine.

Parte 2 — Installare voicebox su Proxmox con GPU passthrough (RTX 2070 Super): LXC bind, il gotcha Debian vs Ubuntu, Python 3.13 con uv, benchmark VRAM reali.

Parte 3 — voicebox in pratica: voice cloning, TTS multilingua e dettatura: cloning reale, quale engine per quale lingua, la pipeline edge-tts→RVC, dettatura con Whisper.

Parte 4 — Dare voce ai tuoi agenti AI: voicebox + MCP con Claude Code: setup MCP, i quattro tool, voci per-agente, verdetto finale.

La Parte 2 parte dal nodo Proxmox già in produzione con la RTX 2070 Super e i driver NVIDIA già installati sull'host. Vedremo perché su questa configurazione il percorso è LXC bind — senza IOMMU/VFIO, senza reboot — e come far girare PyTorch CUDA dentro un container Debian senza impazzire con le versioni.

Articoli Correlati

Dare voce ai tuoi agenti AI: voicebox + MCP con Claude Code

voicebox in pratica: voice cloning, TTS multilingua e dettatura

voicebox: lo studio vocale AI che gira tutto in locale

Commenti (0)

MoneyPrinterTurbo + Ollama: video AI a costo zero in locale (Parte 1)

Resta Aggiornato

voicebox: lo studio vocale AI che gira tutto in locale

Il contesto: la voce è rimasta l'ultimo bastione del cloud

Cosa fa, in concreto

Perché "tutto in locale" conta — e dove non basta

Architettura: cosa gira sotto il cofano

voicebox vs ElevenLabs vs Wispr Flow: il confronto, punto per punto

Gli engine: una carrellata onesta

Hardware: quanta VRAM serve davvero

Domande frequenti

voicebox è gratis?

voicebox funziona senza una GPU?

Quante lingue supporta voicebox?

voicebox è meglio di ElevenLabs?

La serie completa