

MAI-Voice-1
#22 in Echtzeit-Sprach & Voice-Agentenmicrosoft · v1 · seit Erste Vorstellung: 28. August 2025 (Blogpost "Two in-house models"); breiterer Public-Preview-Launch in Microsoft Foundr · 14× · zuletzt 30. Juni 2026
MAI-Voice-1 ist Microsofts erstes eigenentwickeltes Text-to-Speech-Modell des MAI-Teams (Microsoft AI, unter Mustafa Suleyman). Es erzeugt hochexpressive, natürlich klingende Sprache und kann 60 Sekunden Audio in unter einer Sekunde auf einer einzelnen GPU generieren. Das Modell unterstützt Voice-Cloning aus wenigen Sekunden Audiomaterial (Personal-Voice-Funktion, genehmigungspflichtig), feingranulare Emotionssteuerung per SSML sowie Langform-Inhalte mit konsistenter Sprecheridentität. Es ist über Azure Speech / Microsoft Foundry als Public Preview verfügbar und treibt u.a. Copilot Audio Expressions und Copilot Podcasts an.
Features
| Echtzeit-Streaming | Unterstützt sowohl Streaming- als auch Batch-Synthese; 60 Sek. Audio in <1 Sek. auf einer GPU |
| Latenz | Sub-100 ms Latenz für interaktive Workloads über die Azure Speech SDK |
| Lizenz | Proprietär; Microsoft hält volle Lizenzrechte für kommerzielle Nutzung; aktuell Public Preview ohne SLA |
| Plattform | Azure Speech, Microsoft Foundry, MAI Playground, Copilot (Audio Expressions, Podcasts) |
| Preis | Ab 22 USD pro 1 Mio. Zeichen (Azure Speech / Foundry) |
| Release-Datum | 28. Aug. 2025 (Ankündigung); 2. Apr. 2026 (Public Preview in Foundry) |
| Sprachen | Optimiert für Englisch (US); mehrsprachige Abdeckung erst mit Nachfolger MAI-Voice-2 (>10 Sprachen) |
| Voice-Cloning | Ja, per Personal-Voice-Funktion aus 10-Sekunden-Audiosample; genehmigungspflichtig (Responsible-AI-Prozess) |