Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Sonic-3.5

#2 in Sprachsynthese (TTS)

cartesia · v3.5 · seit 2026-06-16 · 9× · zuletzt 30. Juni 2026

Momentum

Cartesia Sonic-3.5 ist ein Echtzeit-Text-to-Speech-Modell, das am 16. Juni 2026 zusammen mit dem Spracherkennungsmodell Ink-2 veröffentlicht wurde. Es basiert auf State Space Models (SSMs) und erreicht laut Hersteller eine Time-to-First-Audio-Latenz von unter 90 ms. Sonic-3.5 belegt Platz 1 auf dem Artificial-Analysis-Speech-Arena-Leaderboard mit einem Elo-Score von 1.218 und unterstützt nativ 42 Sprachen inklusive 9 indischer Sprachen. Die Plattform erlaubt Deployment in der Cloud, On-Premise und On-Device.

Momentum-Verlauf

04.04.03.07.

Features

Latenz (ms)	< 90 ms Time-to-First-Audio (Standard); ca. 82 ms end-to-end laut Cartesia/Artificial Analysis; Turbo-Variante ca. 40 ms TTFB
Mehrsprachigkeit (dialekte)	Akzent-Lokalisierung verfügbar (z. B. Irisch, Neuseeländisch, Südafrikanisch, Belgisch); Changelog 2026 listet 94 neue Stimmen über 17 Locales; automatische Sprachanpassung an den Eingabetext
On-Device Ausführung	Ja – Cartesia unterstützt Cloud-, On-Premise- und On-Device-Deployment; Sonic On-Device (private Beta) für Echtzeit-Streaming auf Mobilgeräten und eingebetteter Hardware über SSM-Architektur
Sprachen	42 Sprachen nativ (u. a. Englisch, Hindi, Spanisch, Französisch, Deutsch, Japanisch, Hebräisch und 35 weitere), inkl. 9 indischer Sprachen
TTS/STT-Qualität (Score)	Elo 1.218 auf dem Artificial Analysis Speech Arena Leaderboard (Platz 1; basierend auf 1.144 Arena-Vergleichen, ±16)

Sonic-3.5

Features

Belege (9)

Weitere Produkte in dieser Kategorie: Sprachsynthese (TTS)

Subscribe free. Unsubscribe the second it sucks.