

Cartesia
#13 in Sprachsynthese (TTS)cartesia · seit Erstes Sonic-TTS-Modell veröffentlicht im Mai 2024; aktuelles Modell Sonic-3.5 veröffentlicht am 16. Juni 2026 · 11× · zuletzt 30. Juni 2026
Cartesia ist ein KI-Sprachsynthese-Produkt (Text-to-Speech) des gleichnamigen Startups, das auf selbst entwickelten State-Space-Modellen (SSM) statt klassischer Transformer-Architekturen basiert. Das aktuelle Flaggschiff-Modell heißt Sonic-3.5 und wird über eine Streaming-API mit sehr niedriger Latenz (unter 90 ms Time-to-First-Audio) angeboten, unterstützt über 40 Sprachen, Emotionsausdruck (inkl. Lachen) sowie Instant-Voice-Cloning. Das Produkt wird als API/SDK, Web-Playground sowie als Basis für eine eigene Voice-Agent-Plattform ("Line") vertrieben und ist in gestaffelten Preisplänen von kostenlos bis Enterprise erhältlich.
Features
| Echtzeit-Streaming | Ja, streaming-first TTS-API für Echtzeit-Sprachgenerierung in Voice-Agents |
| Latenz | Sub-90ms Time-to-First-Audio (Sonic-3.5); teils als ~82ms bzw. 100ms p90 berichtet |
| Lizenz | Kommerzielle SaaS-Nutzung über bezahlte Pläne; separates Open-Source-Projekt 'Edge' (Apache 2.0) für On-Device-SSMs |
| Plattform | Cloud-API, Web-Playground, On-Premises und On-Device-Deployment (SDKs für Entwickler) |
| Preis | Free $0/mo (20K Credits); Pro $5/mo; Startup $49/mo; Scale $299/mo; Enterprise auf Anfrage |
| Release-Datum | Sonic (Erstversion) Mai 2024; Sonic-3.5 am 16. Juni 2026 veröffentlicht |
| Sprachen | 42 Sprachen nativ unterstützt (u.a. Englisch, Hindi, Spanisch, Französisch, Deutsch, Japanisch, Hebräisch) |
| Voice-Cloning | Instant Voice Cloning bereits mit 3–10 Sekunden Audio möglich; zusätzlich 'Pro Voice Cloning' verfügbar |