Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
microsoft

MAI-Transcribe-1

#16 in Transkription (STT)

microsoft · v1 · seit 2. April 2026 · 16× · zuletzt 30. Juni 2026

8
Momentum

MAI-Transcribe-1 ist Microsofts erstes eigenentwickeltes Spracherkennungsmodell (ASR) des MAI-Teams (Superintelligence-Team) und wandelt gesprochene Sprache in 25 Sprachen in Text um. Es erreicht laut Microsoft die niedrigste Wortfehlerrate (WER, ca. 3,9%) auf dem FLEURS-Benchmark und schlägt dabei Modelle wie Whisper-large-V3, GPT-Transcribe, ElevenLabs Scribe v2 und Gemini 3.1 Flash-Lite. Es ist rund 2,5-mal schneller als Azure Fast Transcription bei etwa 50% geringeren GPU-Kosten und kostet ab 0,36 USD pro Audiostunde. Das Modell ist als Public Preview über Microsoft Foundry und Azure Speech verfügbar, unterstützt aber noch keine Echtzeit-Transkription, Sprecher-Diarisierung oder Keyword-Biasing (laut Microsoft für ein späteres Update geplant).

Momentum-Verlauf
04.04.03.07.

Features

Echtzeit-StreamingNicht unterstützt (Batch-Modell); Echtzeit-Transkription laut Microsoft in Entwicklung
LatenzBatch-Transkription 2,5x schneller als Azure Fast Transcription; ~69x Echtzeit laut Artificial Analysis
PlattformMicrosoft Foundry / Azure Speech (LLM Speech API); Integration in Copilot, Teams, Bing, PowerPoint
Preisab 0,36 USD pro Audiostunde
Release-Datum2. April 2026 (Public Preview)
Sprachen25 Sprachen (u.a. Englisch, Deutsch, Französisch, Spanisch, Hindi, Japanisch, Koreanisch, Chinesisch, Arabisch)

Belege (16)

Weitere Produkte in dieser Kategorie: Transkription (STT)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.