Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Cartesia

#13 in Sprachsynthese (TTS)

cartesia · seit Erstes Sonic-TTS-Modell veröffentlicht im Mai 2024; aktuelles Modell Sonic-3.5 veröffentlicht am 16. Juni 2026 · 11× · zuletzt 30. Juni 2026

Momentum

Cartesia ist ein KI-Sprachsynthese-Produkt (Text-to-Speech) des gleichnamigen Startups, das auf selbst entwickelten State-Space-Modellen (SSM) statt klassischer Transformer-Architekturen basiert. Das aktuelle Flaggschiff-Modell heißt Sonic-3.5 und wird über eine Streaming-API mit sehr niedriger Latenz (unter 90 ms Time-to-First-Audio) angeboten, unterstützt über 40 Sprachen, Emotionsausdruck (inkl. Lachen) sowie Instant-Voice-Cloning. Das Produkt wird als API/SDK, Web-Playground sowie als Basis für eine eigene Voice-Agent-Plattform ("Line") vertrieben und ist in gestaffelten Preisplänen von kostenlos bis Enterprise erhältlich.

Momentum-Verlauf

04.04.03.07.

Features

Echtzeit-Streaming	Ja, streaming-first TTS-API für Echtzeit-Sprachgenerierung in Voice-Agents
Latenz	Sub-90ms Time-to-First-Audio (Sonic-3.5); teils als ~82ms bzw. 100ms p90 berichtet
Lizenz	Kommerzielle SaaS-Nutzung über bezahlte Pläne; separates Open-Source-Projekt 'Edge' (Apache 2.0) für On-Device-SSMs
Plattform	Cloud-API, Web-Playground, On-Premises und On-Device-Deployment (SDKs für Entwickler)
Preis	Free $0/mo (20K Credits); Pro $5/mo; Startup $49/mo; Scale $299/mo; Enterprise auf Anfrage
Release-Datum	Sonic (Erstversion) Mai 2024; Sonic-3.5 am 16. Juni 2026 veröffentlicht
Sprachen	42 Sprachen nativ unterstützt (u.a. Englisch, Hindi, Spanisch, Französisch, Deutsch, Japanisch, Hebräisch)
Voice-Cloning	Instant Voice Cloning bereits mit 3–10 Sekunden Audio möglich; zusätzlich 'Pro Voice Cloning' verfügbar

Cartesia

Features

Belege (11)

Weitere Produkte in dieser Kategorie: Sprachsynthese (TTS)

Subscribe free. Unsubscribe the second it sucks.