

MAI Transcribe 1.5
#10 in Transkription (STT)microsoft · v1.5 · seit 2026-06-02 · 2× · zuletzt 29. Juni 2026
15
Momentum
MAI Transcribe 1.5 ist ein Spracherkennungsmodell von Microsoft aus der Kategorie Audio & Stimme. Das Produkt wird als das beste Transkriptionsmodell der Welt bezeichnet und zeichnet sich durch eine außergewöhnliche Kombination aus Geschwindigkeit und Genauigkeit aus.
Momentum-Verlauf
04.04.03.07.
Features
| Preis-Tier | $0,36 USD pro Stunde Audio (Azure Speech / Microsoft Foundry); entspricht $6 USD pro 1.000 Minuten |
| Sprachenunterstützung (Anzahl) | 43 Sprachen (FLEURS-Benchmark-Abdeckung); zusätzlich 100+ BCP-47-Locales laut Azure/OpenRouter-Doku |
| Verarbeitungsgeschwindigkeit (x Realtime) | ~276x Realtime (schnellstes Modell in den Top 10 nach Genauigkeit; 1 Stunde Audio in unter 15 Sekunden; bis zu 5,7x schneller als Vorgänger MAI-Transcribe-1) |
| Word Error Rate (%) | 2,4 % AA-WER (Artificial Analysis Leaderboard, Platz #3); 3,7 % WER auf FLEURS (25 Kernsprachen, Platz #1); 4,9 % Ø-WER auf FLEURS über 43 Sprachen |