Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
microsoft

MAI-Voice-1

#22 in Echtzeit-Sprach & Voice-Agenten

microsoft · v1 · seit Erste Vorstellung: 28. August 2025 (Blogpost "Two in-house models"); breiterer Public-Preview-Launch in Microsoft Foundr · 14× · zuletzt 30. Juni 2026

9
Momentum

MAI-Voice-1 ist Microsofts erstes eigenentwickeltes Text-to-Speech-Modell des MAI-Teams (Microsoft AI, unter Mustafa Suleyman). Es erzeugt hochexpressive, natürlich klingende Sprache und kann 60 Sekunden Audio in unter einer Sekunde auf einer einzelnen GPU generieren. Das Modell unterstützt Voice-Cloning aus wenigen Sekunden Audiomaterial (Personal-Voice-Funktion, genehmigungspflichtig), feingranulare Emotionssteuerung per SSML sowie Langform-Inhalte mit konsistenter Sprecheridentität. Es ist über Azure Speech / Microsoft Foundry als Public Preview verfügbar und treibt u.a. Copilot Audio Expressions und Copilot Podcasts an.

Momentum-Verlauf
04.04.03.07.

Features

Echtzeit-StreamingUnterstützt sowohl Streaming- als auch Batch-Synthese; 60 Sek. Audio in <1 Sek. auf einer GPU
LatenzSub-100 ms Latenz für interaktive Workloads über die Azure Speech SDK
LizenzProprietär; Microsoft hält volle Lizenzrechte für kommerzielle Nutzung; aktuell Public Preview ohne SLA
PlattformAzure Speech, Microsoft Foundry, MAI Playground, Copilot (Audio Expressions, Podcasts)
PreisAb 22 USD pro 1 Mio. Zeichen (Azure Speech / Foundry)
Release-Datum28. Aug. 2025 (Ankündigung); 2. Apr. 2026 (Public Preview in Foundry)
SprachenOptimiert für Englisch (US); mehrsprachige Abdeckung erst mit Nachfolger MAI-Voice-2 (>10 Sprachen)
Voice-CloningJa, per Personal-Voice-Funktion aus 10-Sekunden-Audiosample; genehmigungspflichtig (Responsible-AI-Prozess)

Belege (14)

Weitere Produkte in dieser Kategorie: Echtzeit-Sprach & Voice-Agenten

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.