

Sonic-3.5
#2 in Sprachsynthese (TTS)cartesia · v3.5 · seit 2026-06-16 · 9× · zuletzt 30. Juni 2026
69
Momentum
Cartesia Sonic-3.5 ist ein Echtzeit-Text-to-Speech-Modell, das am 16. Juni 2026 zusammen mit dem Spracherkennungsmodell Ink-2 veröffentlicht wurde. Es basiert auf State Space Models (SSMs) und erreicht laut Hersteller eine Time-to-First-Audio-Latenz von unter 90 ms. Sonic-3.5 belegt Platz 1 auf dem Artificial-Analysis-Speech-Arena-Leaderboard mit einem Elo-Score von 1.218 und unterstützt nativ 42 Sprachen inklusive 9 indischer Sprachen. Die Plattform erlaubt Deployment in der Cloud, On-Premise und On-Device.
Momentum-Verlauf
04.04.03.07.
Features
| Latenz (ms) | < 90 ms Time-to-First-Audio (Standard); ca. 82 ms end-to-end laut Cartesia/Artificial Analysis; Turbo-Variante ca. 40 ms TTFB |
| Mehrsprachigkeit (dialekte) | Akzent-Lokalisierung verfügbar (z. B. Irisch, Neuseeländisch, Südafrikanisch, Belgisch); Changelog 2026 listet 94 neue Stimmen über 17 Locales; automatische Sprachanpassung an den Eingabetext |
| On-Device Ausführung | Ja – Cartesia unterstützt Cloud-, On-Premise- und On-Device-Deployment; Sonic On-Device (private Beta) für Echtzeit-Streaming auf Mobilgeräten und eingebetteter Hardware über SSM-Architektur |
| Sprachen | 42 Sprachen nativ (u. a. Englisch, Hindi, Spanisch, Französisch, Deutsch, Japanisch, Hebräisch und 35 weitere), inkl. 9 indischer Sprachen |
| TTS/STT-Qualität (Score) | Elo 1.218 auf dem Artificial Analysis Speech Arena Leaderboard (Platz 1; basierend auf 1.144 Arena-Vergleichen, ±16) |