Tutorial Qwen3-TTS: text-to-speech e voice cloning gratis

Tre righe di codice. Tre secondi di audio. Ed ecco una voce sintetica che parla 10 lingue, italiano compreso, con una qualità che fa impallidire i servizi a pagamento. Qwen3-TTS è open source, gira sul tuo PC e non manda un solo byte nel cloud. Ecco come installarlo e usarlo in 15 minuti.

Qwen3-TTS: il text-to-speech che cambia le regole

A gennaio 2026, il team Qwen di Alibaba ha rilasciato Qwen3-TTS: un sistema text-to-speech open source che fa tre cose che fino a ieri richiedevano servizi cloud da centinaia di euro al mese.

Voice cloning — clona qualsiasi voce da soli 3 secondi di audio di riferimento
Voice design — crea voci dal nulla descrivendo come devono suonare in linguaggio naturale
Generazione multilingue — parla in 10 lingue (cinese, inglese, italiano, giapponese, coreano, tedesco, francese, russo, portoghese, spagnolo) con latenza di 97 millisecondi

Licenza Apache 2.0 — significa che puoi usarlo anche a fini commerciali, gratis, senza vincoli. Addestrato su 5 milioni di ore di audio, batte la concorrenza nei benchmark WER (Word Error Rate) su tutte e 10 le lingue, con una speaker similarity media di 0.789 sul voice cloning multilingue (superiore a ElevenLabs con 0.75 e MiniMax con 0.72). In parole povere: le voci clonate sono quasi indistinguibili dall'originale.

Cosa ti serve: low-end vs high-end

Qwen3-TTS ha due varianti, e la differenza non è solo di qualità — è di cosa puoi fare. Ecco la mappa completa per capire dove cadi.

GPU: GTX 1060 6GB, GTX 1650, Quadro T2000 (4 GB), o simili
Modello: 0.6B (scarica ~2.5 GB) — CustomVoice + Base (voice cloning). NOTA: il parametro instruct (tono, emozioni) è ignorato, la voce sarà corretta ma piatta
VoiceDesign (crea voci dal nulla): NON disponibile in 0.6B — serve il 1.7B o Google Colab
dtype: torch.float32 + device_map: "auto" (float16 causa errori NaN su GPU Turing/Pascal)
RAM di sistema: 16 GB consigliati

Clona qualsiasi voce con 3 righe di Python: tutorial Qwen3-TTS

Articoli Correlati

Tinykit: l’app builder self-hosted che sfida Lovable con €3.79 al mese

Manychat, il bot da $47k al mese che Meta finge di non vedere

Qwen3-TTS: il text-to-speech che cambia le regole

Cosa ti serve: low-end vs high-end

Commenti (0)

Resta Aggiornato

Sicilia Tech: 5 miliardi di ambizioni, 714 startup e una domanda scomoda

Step 0: Verifica che la GPU funzioni

Step 1: Installazione (5 minuti)

Step 2: Genera il tuo primo audio

Step 3: Crea una voce dal nulla (Voice Design)

Step 4: Clona una voce reale (3 secondi bastano)

La concorrenza: chi paga e chi regala

La questione etica (sì, dobbiamo parlarne)

Fonti