Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

MAI-Voice-1

#22 in Echtzeit-Sprach & Voice-Agenten

microsoft · v1 · seit Erste Vorstellung: 28. August 2025 (Blogpost "Two in-house models"); breiterer Public-Preview-Launch in Microsoft Foundr · 14× · zuletzt 30. Juni 2026

Momentum

MAI-Voice-1 ist Microsofts erstes eigenentwickeltes Text-to-Speech-Modell des MAI-Teams (Microsoft AI, unter Mustafa Suleyman). Es erzeugt hochexpressive, natürlich klingende Sprache und kann 60 Sekunden Audio in unter einer Sekunde auf einer einzelnen GPU generieren. Das Modell unterstützt Voice-Cloning aus wenigen Sekunden Audiomaterial (Personal-Voice-Funktion, genehmigungspflichtig), feingranulare Emotionssteuerung per SSML sowie Langform-Inhalte mit konsistenter Sprecheridentität. Es ist über Azure Speech / Microsoft Foundry als Public Preview verfügbar und treibt u.a. Copilot Audio Expressions und Copilot Podcasts an.

Momentum-Verlauf

04.04.03.07.

Features

Echtzeit-Streaming	Unterstützt sowohl Streaming- als auch Batch-Synthese; 60 Sek. Audio in <1 Sek. auf einer GPU
Latenz	Sub-100 ms Latenz für interaktive Workloads über die Azure Speech SDK
Lizenz	Proprietär; Microsoft hält volle Lizenzrechte für kommerzielle Nutzung; aktuell Public Preview ohne SLA
Plattform	Azure Speech, Microsoft Foundry, MAI Playground, Copilot (Audio Expressions, Podcasts)
Preis	Ab 22 USD pro 1 Mio. Zeichen (Azure Speech / Foundry)
Release-Datum	28. Aug. 2025 (Ankündigung); 2. Apr. 2026 (Public Preview in Foundry)
Sprachen	Optimiert für Englisch (US); mehrsprachige Abdeckung erst mit Nachfolger MAI-Voice-2 (>10 Sprachen)
Voice-Cloning	Ja, per Personal-Voice-Funktion aus 10-Sekunden-Audiosample; genehmigungspflichtig (Responsible-AI-Prozess)

MAI-Voice-1

Features

Belege (14)

Weitere Produkte in dieser Kategorie: Echtzeit-Sprach & Voice-Agenten

Subscribe free. Unsubscribe the second it sucks.