

Qwen3-TTS CustomVoice
#7 in Sprachsynthese (TTS)alibaba · v3 · tts customvoice · seit 22. Januar 2026 · 15× · zuletzt 30. Juni 2026
36
Momentum
Qwen3-TTS CustomVoice ist ein von Alibabas Qwen-Team entwickeltes Text-to-Speech-Modell, das 9 vordefinierte Premium-Stimmen mit stilistischer Kontrolle über natürliche Sprachanweisungen kombiniert. Es unterstützt 10 Hauptsprachen sowie mehrere Dialektvarianten und basiert auf dem selbstentwickelten Qwen3-TTS-Tokenizer-12Hz für eine ressourcenschonende, latenzarme Sprachsynthese. Das Modell ist Teil der Open-Source-Qwen3-TTS-Familie (Apache-2.0-Lizenz) und wurde am 22. Januar 2026 veröffentlicht; es ist auch über die DashScope/Alibaba-Cloud-API nutzbar.
Momentum-Verlauf
04.04.03.07.
Features
| Echtzeit-Streaming | Ja – Dual-Track-Streaming-Architektur, erstes Audiopaket nach einem Zeichen |
| Latenz | End-to-End-Synthese-Latenz bis zu 97 ms (Streaming) |
| Lizenz | Apache License 2.0 |
| Plattform | GitHub, Hugging Face, ModelScope, DashScope/Alibaba Cloud API |
| Preis | Open-Source-Modell kostenlos (Apache 2.0); Cloud-API ca. $0,013 pro 1.000 Zeichen |
| Release-Datum | 22. Januar 2026 (Open-Source-Veröffentlichung 0.6B/1.7B) |
| Sprachen | 10 Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch, Italienisch |
| Voice-Cloning | Nicht Teil von CustomVoice (nur im Base-Modell: 3-Sek.-Voice-Cloning); CustomVoice bietet 9 feste Premium-Stimmen |