Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
cartesia

Cartesia

#13 in Sprachsynthese (TTS)

cartesia · seit Erstes Sonic-TTS-Modell veröffentlicht im Mai 2024; aktuelles Modell Sonic-3.5 veröffentlicht am 16. Juni 2026 · 11× · zuletzt 30. Juni 2026

26
Momentum

Cartesia ist ein KI-Sprachsynthese-Produkt (Text-to-Speech) des gleichnamigen Startups, das auf selbst entwickelten State-Space-Modellen (SSM) statt klassischer Transformer-Architekturen basiert. Das aktuelle Flaggschiff-Modell heißt Sonic-3.5 und wird über eine Streaming-API mit sehr niedriger Latenz (unter 90 ms Time-to-First-Audio) angeboten, unterstützt über 40 Sprachen, Emotionsausdruck (inkl. Lachen) sowie Instant-Voice-Cloning. Das Produkt wird als API/SDK, Web-Playground sowie als Basis für eine eigene Voice-Agent-Plattform ("Line") vertrieben und ist in gestaffelten Preisplänen von kostenlos bis Enterprise erhältlich.

Momentum-Verlauf
04.04.03.07.

Features

Echtzeit-StreamingJa, streaming-first TTS-API für Echtzeit-Sprachgenerierung in Voice-Agents
LatenzSub-90ms Time-to-First-Audio (Sonic-3.5); teils als ~82ms bzw. 100ms p90 berichtet
LizenzKommerzielle SaaS-Nutzung über bezahlte Pläne; separates Open-Source-Projekt 'Edge' (Apache 2.0) für On-Device-SSMs
PlattformCloud-API, Web-Playground, On-Premises und On-Device-Deployment (SDKs für Entwickler)
PreisFree $0/mo (20K Credits); Pro $5/mo; Startup $49/mo; Scale $299/mo; Enterprise auf Anfrage
Release-DatumSonic (Erstversion) Mai 2024; Sonic-3.5 am 16. Juni 2026 veröffentlicht
Sprachen42 Sprachen nativ unterstützt (u.a. Englisch, Hindi, Spanisch, Französisch, Deutsch, Japanisch, Hebräisch)
Voice-CloningInstant Voice Cloning bereits mit 3–10 Sekunden Audio möglich; zusätzlich 'Pro Voice Cloning' verfügbar

Belege (11)

Weitere Produkte in dieser Kategorie: Sprachsynthese (TTS)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.