Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Ink-2

#3 in Sprachsynthese (TTS)

cartesia · v2 · seit 16. Juni 2026 · 6× · zuletzt 29. Juni 2026

Momentum

Cartesia Ink-2 ist ein Streaming-Speech-to-Text-Modell (STT), das speziell für Echtzeit-Sprachagenten entwickelt wurde. Es basiert auf einer State-Space-Model-Architektur (SSM) statt auf Transformern und liefert laut Hersteller die niedrigste Word Error Rate aller Streaming-STT-Modelle. Das Modell enthält native Turn-Detektion (turn.start, turn.eager_end, turn.end) ohne externe VAD-Komponente und verwendet semantisches Endpointing, das Gesprächspausen inhaltlich bewertet. Ink-2 wurde zusammen mit Sonic-3.5 am 16. Juni 2026 veröffentlicht und debütierte als Platz 1 auf dem Artificial-Analysis-Streaming-STT-Leaderboard. Zum Launch unterstützt es ausschließlich Englisch; Mehrsprachigkeit ist für zukünftige Versionen angekündigt.

Momentum-Verlauf

04.04.03.07.

Features

Latenz (ms)	Time to final transcript: 100 ms (0,1 s); sub-350 ms Partial-Latenz; turn.eager_end reduziert Lücke zwischen letztem Wort und erster LLM-Antwort zusätzlich
Mehrsprachigkeit (dialekte)	Zum Launch English only; andere Sprachen erfordern Fallback auf ink-whisper; Multilingual-Unterstützung für Ink-2 explizit als 'in Arbeit' angekündigt
On-Device Ausführung	VPC/On-Premise-Deployment für Enterprise-Kunden verfügbar (erwähnt als Entscheidungskriterium für Cartesia vs. Alternativen)
Sprachen	Englisch only (zum Launch); Multilingual in Entwicklung angekündigt

Ink-2

Features

Belege (6)

Weitere Produkte in dieser Kategorie: Sprachsynthese (TTS)

Subscribe free. Unsubscribe the second it sucks.