

Gemini 3.1 Flash TTS
#9 in Sprachsynthese (TTS)google · v3.1 · flash tts · seit April 15, 2026 · 25× · zuletzt 30. Juni 2026
34
Momentum
Gemini 3.1 Flash TTS ist Googles Text-to-Speech-Modell für die Umwandlung von Text in hochwertige Sprache mit über 70 Sprachen. Das Modell bietet über 200 Audio-Tags zur feingranularen Kontrolle von Sprachstil, Tempo und Emotionalität sowie Unterstützung für bis zu zwei Sprecher pro Anfrage. Mit einem Elo-Score von 1.211 auf der Artificial-Analysis-Leaderboard bietet es eine optimale Kombination aus Sprachqualität und niedrigen Kosten. Alle Ausgaben werden mit SynthID-Wasserzeichen versehen, um KI-generierte Inhalte zu kennzeichnen.
Momentum-Verlauf
04.04.03.07.
Features
| Echtzeit-Streaming | Ja – Streaming-Unterstützung (stream: true / streamGenerateContent) für gemini-3.1-flash-tts-preview vorhanden; als einziges TTS-Modell der API mit Streaming-Support |
| Latenz | Low-Latency-Ausrichtung laut offizieller Dokumentation; unabhängige Tests berichten ca. 300–500 ms bis zum ersten Audio-Chunk |
| Plattform | Google AI Studio, Vertex AI (Public Preview), Gemini API (REST/SDK); Cloud-only – kein lokales Deployment |
| Preis | $1,00 / 1 Mio. Input-Token (Text); $20,00 / 1 Mio. Output-Token (Audio); Audio-Token entsprechen 25 Token/Sekunde. Free-Tier (Preview) in AI Studio verfügbar. Batch-API: 50 % Rabatt. |
| Release-Datum | 15. April 2026 (Preview-Launch gemini-3.1-flash-tts-preview) |
| Sprachen | 70+ Sprachen (u. a. Englisch, Spanisch, Französisch, Deutsch, Portugiesisch, Japanisch, Koreanisch, Arabisch, Hindi, Mandarin sowie zahlreiche regionale Varianten) |
| Voice-Cloning | Nein – das Modell arbeitet ausschließlich mit 30 vordefinierten Stimmen; kein Custom-Voice-Cloning möglich |