Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Gemini 3.1 Flash TTS

#9 in Sprachsynthese (TTS)

google · v3.1 · flash tts · seit April 15, 2026 · 25× · zuletzt 30. Juni 2026

Momentum

Gemini 3.1 Flash TTS ist Googles Text-to-Speech-Modell für die Umwandlung von Text in hochwertige Sprache mit über 70 Sprachen. Das Modell bietet über 200 Audio-Tags zur feingranularen Kontrolle von Sprachstil, Tempo und Emotionalität sowie Unterstützung für bis zu zwei Sprecher pro Anfrage. Mit einem Elo-Score von 1.211 auf der Artificial-Analysis-Leaderboard bietet es eine optimale Kombination aus Sprachqualität und niedrigen Kosten. Alle Ausgaben werden mit SynthID-Wasserzeichen versehen, um KI-generierte Inhalte zu kennzeichnen.

Momentum-Verlauf

04.04.03.07.

Features

Echtzeit-Streaming	Ja – Streaming-Unterstützung (stream: true / streamGenerateContent) für gemini-3.1-flash-tts-preview vorhanden; als einziges TTS-Modell der API mit Streaming-Support
Latenz	Low-Latency-Ausrichtung laut offizieller Dokumentation; unabhängige Tests berichten ca. 300–500 ms bis zum ersten Audio-Chunk
Plattform	Google AI Studio, Vertex AI (Public Preview), Gemini API (REST/SDK); Cloud-only – kein lokales Deployment
Preis	$1,00 / 1 Mio. Input-Token (Text); $20,00 / 1 Mio. Output-Token (Audio); Audio-Token entsprechen 25 Token/Sekunde. Free-Tier (Preview) in AI Studio verfügbar. Batch-API: 50 % Rabatt.
Release-Datum	15. April 2026 (Preview-Launch gemini-3.1-flash-tts-preview)
Sprachen	70+ Sprachen (u. a. Englisch, Spanisch, Französisch, Deutsch, Portugiesisch, Japanisch, Koreanisch, Arabisch, Hindi, Mandarin sowie zahlreiche regionale Varianten)
Voice-Cloning	Nein – das Modell arbeitet ausschließlich mit 30 vordefinierten Stimmen; kein Custom-Voice-Cloning möglich

Gemini 3.1 Flash TTS

Features

Belege (25)

Weitere Produkte in dieser Kategorie: Sprachsynthese (TTS)

Subscribe free. Unsubscribe the second it sucks.