3 marzo 2026 · 14 min lettura
OpinioneUn milione di utenti dichiarati, 7.434 attivi. Promesse da $47k al mese senza audit. L’automazione DM che Instagram penalizza ma Meta certifica.
OpinioneSTM investe €5B a Catania, Ragusa genera il 42% del fatturato ICT siciliano, 714 startup nel registro. Ma quante sopravvivono senza fondi pubblici?
TechnologyIscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
13 aziende, €350M di fatturato, un hackathon da 400 iscritti. Ragusa si candida a polo tech del Sud. Ma i numeri reggono davvero?
Tre righe di codice. Tre secondi di audio. Ed ecco una voce sintetica che parla 10 lingue, italiano compreso, con una qualità che fa impallidire i servizi a pagamento. Qwen3-TTS è open source, gira sul tuo PC e non manda un solo byte nel cloud. Ecco come installarlo e usarlo in 15 minuti.
A gennaio 2026, il team Qwen di Alibaba ha rilasciato Qwen3-TTS: un sistema text-to-speech open source che fa tre cose che fino a ieri richiedevano servizi cloud da centinaia di euro al mese.
Licenza Apache 2.0 — significa che puoi usarlo anche a fini commerciali, gratis, senza vincoli. Addestrato su 5 milioni di ore di audio, batte la concorrenza nei benchmark WER (Word Error Rate) su tutte e 10 le lingue, con una speaker similarity media di 0.789 sul voice cloning multilingue (superiore a ElevenLabs con 0.75 e MiniMax con 0.72). In parole povere: le voci clonate sono quasi indistinguibili dall'originale.
Qwen3-TTS ha due varianti, e la differenza non è solo di qualità — è di cosa puoi fare. Ecco la mappa completa per capire dove cadi.
Se è la prima volta che metti mano a un modello AI, ecco i termini che incontrerai in questa guida:
VRAM — la memoria della scheda grafica (GPU). Non è la RAM del PC: è una memoria dedicata, più veloce, che si trova sulla scheda video. I modelli AI vivono qui durante l'esecuzione. La tua GPU ne ha una quantità fissa (es. 4 GB su una Quadro T2000, 12 GB su una RTX 3060) e non puoi ampliarla.
float16 / float32 / bfloat16 — sono formati numerici che indicano quanta precisione usa il modello per i calcoli. float32 è il più preciso (e pesante: usa il doppio della VRAM). float16 dimezza la VRAM ma può generare errori numerici su alcune GPU. bfloat16 è un compromesso ideale, ma funziona solo su GPU recenti (RTX 3000 in su). Regola pratica: se hai una GPU vecchia (GTX 10xx, 16xx, Quadro T-series), usa float32.
device_map — dice a PyTorch dove caricare il modello. "cuda:0" = tutto nella GPU (veloce, ma deve starci). "auto" = PyTorch decide da solo come dividere tra GPU e RAM di sistema (più lento, ma gestisce GPU con poca VRAM). "cpu" = tutto nella RAM, senza GPU (lentissimo ma funziona sempre).
CUDA — è il sistema di NVIDIA che permette ai programmi di usare la GPU per calcoli. Richiede: 1) una GPU NVIDIA, 2) i driver installati, 3) PyTorch compilato con supporto CUDA. Senza CUDA il modello gira solo su CPU.
nvidia-smi — un comando che mostra lo stato della GPU: modello, VRAM totale, VRAM usata, driver installati. Se questo comando non funziona, i driver non sono installati.
venv — un ambiente Python isolato. Crea una cartella con una copia separata di Python e dei pacchetti installati, così non sporchi il sistema. Lo crei con python3 -m venv nomecartella e lo attivi con source nomecartella/bin/activate.
Prima di installare qualsiasi cosa, verifica che i driver NVIDIA siano attivi. Apri un terminale e scrivi:
nvidia-smiSe vedi una tabella con il nome della tua GPU e la VRAM, sei a posto — salta al passo successivo. Se invece ricevi "comando non trovato", devi installare i driver.
# Abilita RPM Fusion (se non lo hai già)
sudo dnf install https://mirrors.rpmfusion.org/free/fedora/rpmfusion-free-release-$(rpm -E %fedora).noarch.rpm https://mirrors.rpmfusion.org/nonfree/fedora/rpmfusion-nonfree-release-$(rpm -E %fedora).noarch.rpm
# Installa driver NVIDIA + CUDA
sudo dnf install akmod-nvidia xorg-x11-drv-nvidia-cuda
# Aspetta 2-3 minuti che il modulo kernel venga compilato, poi riavvia
sudo rebootsudo apt update
sudo apt install nvidia-driver-560 nvidia-cuda-toolkit
sudo rebootDopo il riavvio, rilancia nvidia-smi. Devi vedere qualcosa tipo:
+-----------------------+
| NVIDIA-SMI 560.xx |
| Driver Version: 560.xx|
| Quadro T2000 4GB |
+-----------------------+Apri il terminale e crea un ambiente Python isolato. Usiamo venv, che è incluso in Python — non devi installare nulla di extra. Se preferisci Conda (un gestore di ambienti più avanzato, scaricabile da conda.io), funziona ugualmente.
# Crea un ambiente Python isolato (venv è incluso in Python, zero installazioni extra)
# Usa Python 3.12 o 3.13 — la 3.14 è troppo recente e può dare problemi
# Su Fedora: sudo dnf install python3.12
# Su Ubuntu/Debian: sudo apt install python3.12 python3.12-venv
python3.12 -m venv qwen-tts # oppure python3.13, ma NON python3.14
source qwen-tts/bin/activate # Windows: qwen-tts\Scripts\activate
# Installa Qwen3-TTS (una riga, tutto incluso)
pip install -U qwen-ttsServe anche SoX (Sound eXchange), un tool audio di sistema usato internamente dal modello per processare i file audio:
# Su Fedora/RHEL:
sudo dnf install sox
# Su Ubuntu/Debian:
sudo apt install sox
# Su macOS:
brew install soxQuesto è tutto. Il pacchetto qwen-tts installa tutte le dipendenze: PyTorch, Transformers, soundfile. Se hai una GPU compatibile e vuoi spremere le massime prestazioni, puoi aggiungere FlashAttention2. Ma attenzione: richiede il CUDA Toolkit completo installato sul sistema (non basta PyTorch). Se il comando fallisce, salta pure — Qwen3-TTS funziona perfettamente anche senza.
# Opzionale: FlashAttention2 (velocità +30-40%)
# RICHIEDE il CUDA Toolkit completo (nvcc). Se non lo hai, SALTA questo step.
# Su Fedora/RHEL: sudo dnf install cuda-toolkit
# Su Ubuntu/Debian: sudo apt install nvidia-cuda-toolkit
# Qwen3-TTS funziona benissimo anche senza.
pip install -U flash-attn --no-build-isolationimport torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# === SCEGLI LA TUA CONFIG ===
# LOW-END (GPU 4-6 GB): usa 0.6B + float32 + auto (spalma tra GPU e RAM)
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice",
device_map="auto",
dtype=torch.float32,
)
# HIGH-END (GPU 8+ GB): decommenta queste righe e commenta quelle sopra
# model = Qwen3TTSModel.from_pretrained(
# "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
# device_map="cuda:0",
# dtype=torch.bfloat16,
# )
# Genera audio con voce preimpostata
wavs, sr = model.generate_custom_voice(
text="Ciao, sono una voce generata da Qwen3-TTS. "
"Giro interamente sul tuo computer, senza cloud.",
language="Italian",
speaker="Ryan",
# instruct="Speak calmly and clearly.", # NOTA: ignorato dal 0.6B, funziona solo col 1.7B
)
sf.write("primo_audio.wav", wavs[0], sr)
print("Audio salvato: primo_audio.wav")Esegui con python demo_base.py (NON bash demo_base.py — è Python, non bash!). Apri primo_audio.wav con il tuo player audio. La qualità è da servizio premium.
Le voci disponibili includono Ryan (maschile, dinamica, inglese nativo), Vivian (femminile, brillante, cinese nativo), Serena (femminile, calda, cinese), Aiden (maschile, solare, americano) e altre. L'italiano non ha una voce nativa dedicata, ma Ryan e Aiden gestiscono bene l'italiano grazie al training multilingue.
Ed è qui che la magia si fa seria. Il modello VoiceDesign ti permette di inventare voci che non esistono semplicemente descrivendole a parole. Vuoi un baritono con accento caldo? Una voce giovane ed energica? Basta chiederlo.
A differenza di altri sistemi TTS, Qwen3-TTS non supporta SSML (il linguaggio a tag per controllare pause e intonazione). Usa invece il parametro instruct, che accetta istruzioni in linguaggio naturale: "Speak with enthusiasm and warmth", "Read slowly with dramatic pauses", "Sound like a tired person at the end of a long day". Funziona sorprendentemente bene — ma solo col modello 1.7B. Col 0.6B il parametro viene silenziosamente ignorato.
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
device_map="cuda:0",
dtype=torch.bfloat16,
)
# Descrivi la voce che vuoi — in linguaggio naturale!
wavs, sr = model.generate_voice_design(
text="Benvenuti nel mio canale. Oggi parliamo di "
"intelligenza artificiale e di come sta cambiando tutto.",
language="Italian",
instruct="Deep warm male voice, calm and authoritative, "
"like a podcast host. Medium pace, clear diction.",
)
sf.write("voce_podcast.wav", wavs[0], sr)
print("Voce podcast generata!")Qualche esempio di prompt per il voice design che funzionano bene:
La funzionalità più potente — e più controversa. Con il modello Base puoi clonare qualsiasi voce a partire da un campione audio di soli 3 secondi. La voce sintetica manterrà timbro, ritmo e caratteristiche dell'originale.
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# === SCEGLI LA TUA CONFIG ===
# LOW-END (GPU 4-6 GB):
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-0.6B-Base",
device_map="auto",
dtype=torch.float32,
)
# HIGH-END (GPU 8+ GB): usa "Qwen/Qwen3-TTS-12Hz-1.7B-Base" con device_map="cuda:0" e dtype=torch.bfloat16
# Audio di riferimento (min 3 secondi) + trascrizione
ref_audio = "./mia_voce_campione.wav"
ref_text = "Questo è un esempio della mia voce reale."
# Genera nuovo audio con la voce clonata
wavs, sr = model.generate_voice_clone(
text="Questo testo viene letto con la mia voce clonata. "
"Incredibile, vero? E gira tutto in locale.",
language="Italian",
ref_audio=ref_audio,
ref_text=ref_text,
)
sf.write("voce_clonata.wav", wavs[0], sr)
print("Voce clonata generata!")Il parametro ref_text è la trascrizione di quello che viene detto nel campione audio. Più è precisa, migliore sarà il risultato. Il campione audio ideale è tra 3 e 10 secondi, con voce chiara e senza rumore di fondo.
Se devi generare molte frasi con la stessa voce clonata, puoi creare un prompt riutilizzabile per evitare di rielaborare l'audio ogni volta:
# Crea il prompt una volta sola
prompt = model.create_voice_clone_prompt(
ref_audio="./mia_voce_campione.wav",
ref_text="Questo è un esempio della mia voce reale.",
)
# Riutilizzalo per generare quante frasi vuoi
testi = [
"Prima frase del mio podcast.",
"Seconda frase con la stessa voce.",
"Terza frase, sempre io!",
]
for i, testo in enumerate(testi):
wavs, sr = model.generate_voice_clone(
text=testo,
language="Italian",
voice_clone_prompt=prompt,
)
sf.write(f"clone_{i}.wav", wavs[0], sr)
print(f"Generati {len(testi)} file audio!")Per mettere le cose in prospettiva, ecco quanto costa la stessa cosa con i servizi cloud:
Sul fronte delle prestazioni, i benchmark parlano chiaro: Qwen3-TTS ha il WER più basso su tutte e 10 le lingue rispetto ai modelli concorrenti, una speaker similarity di 0.95 nel voice cloning (dove 1.0 è identico all'originale) e un punteggio UTMOS di 4.16 su 5 per la naturalezza percepita. Numeri da servizio premium, a costo zero.
Un sistema che clona voci in 3 secondi è uno strumento potentissimo. Anche pericoloso. Le truffe vocali basate su AI stanno esplodendo: un adulto su quattro, secondo uno studio globale, ha già ricevuto una chiamata con voce clonata. Usare questa tecnologia per impersonare qualcuno senza consenso è illegale in Italia e nella maggior parte dei Paesi europei.
Il motivo per cui vale la pena conoscere Qwen3-TTS non è per fare scherzi telefonici, ma per tre ragioni concrete: accessibilità (dare una voce a chi l'ha persa), content creation (podcast, video, audiolibri senza registrare ore di audio), e consapevolezza (capire quanto sia facile clonare una voce ti rende più difficile da fregare).
Qwen3-TTS è il momento in cui il text-to-speech di qualità professionale ha smesso di essere un privilegio delle Big Tech e si è trasferito nel tuo salotto. Alibaba ha regalato al mondo un sistema che rivaleggia con servizi da centinaia di euro al mese, gira su una GPU da gaming e non ha bisogno di internet.
OpenAI, ElevenLabs e Google Cloud continuano a vendere TTS come servizio premium. Nel frattempo, con pip install qwen-tts e tre righe di Python hai lo stesso risultato. Gratis. In locale. Per sempre.
Il futuro della voce sintetica non è nel cloud. È nella tua scheda grafica.
GitHub — Qwen3-TTS (repo ufficiale) · Qwen Blog — Qwen3-TTS Family Open Source · DEV Community — Qwen3-TTS Revolution 2026 · BentoML — Best Open Source TTS Models 2026 · Hugging Face — Qwen3-TTS Models