

Stable Audio Open
#15 in KI-Musikgenerierungstability-ai · seit 2024-06-05 · 2× · zuletzt 30. Juni 2026
12
Momentum
Stable Audio Open 1.0 ist ein Open-Weights Text-zu-Audio-Modell von Stability AI mit ca. 1,21 Milliarden Parametern, das auf einer latenten Diffusionsarchitektur mit DiT-Komponenten und T5-basierter Textkonditionierung basiert. Es generiert variables, stereophonisches Audio mit bis zu 47 Sekunden Länge bei 44,1 kHz. Das Modell wurde ausschließlich auf Creative-Commons-lizenzierten Audiodaten (Freesound und Free Music Archive) trainiert und ist primär für Forschung, Sounddesign sowie nicht-kommerzielle Nutzung konzipiert. Gesangs- oder Sprachgenerierung wird vom Modell ausdrücklich nicht unterstützt.
Momentum-Verlauf
04.04.03.07.
Features
| Max. Musikdauer (Sekunden) | 47 Sekunden (variables Stereo-Audio bei 44,1 kHz) |
| Unterstützte Eingabeformate | Texteingabe (Text-Prompts auf Englisch) mit optionaler Zeitkonditionierung (seconds_start, seconds_total); Audio-Variationen und Style-Transfer von Audio-Samples ebenfalls möglich |
| Vokal-/Gesang-Qualität | Nicht unterstützt – das Modell ist nicht in der Lage, realistische Vokale oder verständliche Sprache/Gesang zu erzeugen |