Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
cartesia

Ink-2

#3 in Sprachsynthese (TTS)

cartesia · v2 · seit 16. Juni 2026 · 6× · zuletzt 29. Juni 2026

61
Momentum

Cartesia Ink-2 ist ein Streaming-Speech-to-Text-Modell (STT), das speziell für Echtzeit-Sprachagenten entwickelt wurde. Es basiert auf einer State-Space-Model-Architektur (SSM) statt auf Transformern und liefert laut Hersteller die niedrigste Word Error Rate aller Streaming-STT-Modelle. Das Modell enthält native Turn-Detektion (turn.start, turn.eager_end, turn.end) ohne externe VAD-Komponente und verwendet semantisches Endpointing, das Gesprächspausen inhaltlich bewertet. Ink-2 wurde zusammen mit Sonic-3.5 am 16. Juni 2026 veröffentlicht und debütierte als Platz 1 auf dem Artificial-Analysis-Streaming-STT-Leaderboard. Zum Launch unterstützt es ausschließlich Englisch; Mehrsprachigkeit ist für zukünftige Versionen angekündigt.

Momentum-Verlauf
04.04.03.07.

Features

Latenz (ms)Time to final transcript: 100 ms (0,1 s); sub-350 ms Partial-Latenz; turn.eager_end reduziert Lücke zwischen letztem Wort und erster LLM-Antwort zusätzlich
Mehrsprachigkeit (dialekte)Zum Launch English only; andere Sprachen erfordern Fallback auf ink-whisper; Multilingual-Unterstützung für Ink-2 explizit als 'in Arbeit' angekündigt
On-Device AusführungVPC/On-Premise-Deployment für Enterprise-Kunden verfügbar (erwähnt als Entscheidungskriterium für Cartesia vs. Alternativen)
SprachenEnglisch only (zum Launch); Multilingual in Entwicklung angekündigt

Belege (6)

Weitere Produkte in dieser Kategorie: Sprachsynthese (TTS)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.