

Qwen3-Omni-30B
#37 in Multimodale Modelleqwen · v3 · omni 30b · seit 2025-09-22 · 2× · zuletzt 29. Juni 2026
Qwen3-Omni-30B ist ein nativ end-to-end trainiertes, omnimodales Sprachmodell von Alibabas Qwen-Team mit einer Mixture-of-Experts-Architektur (30 Mrd. Gesamtparameter, 3 Mrd. aktive Parameter). Es verarbeitet Text, Bild, Audio und Video gleichzeitig und gibt sowohl Text als auch Sprache in Echtzeit aus. Das Modell wird unter Apache-2.0-Lizenz als Open-Weight-Modell bereitgestellt und ist zugleich über Alibabas DashScope-API abrufbar. Laut dem offiziellen Technical Report erreicht Qwen3-Omni auf 32 von 36 Audio- und audiovisuellen Benchmarks Open-Source-SOTA und übertrifft geschlossene Systeme wie Gemini-2.5-Pro auf 22 Benchmarks.
Features
| Kontextfenster (Token) | 32.768 Token nativ (Instruct-Variante); Thinking-Variante bis 65.536 Token |
| Multimodale Eingaben | Text, Bild, Audio, Video (Eingabe); Text + natürliche Sprache (Ausgabe, Echtzeit-Streaming) |
| On-Device vs. Cloud | Beides: Open-Weight unter Apache 2.0 (Hugging Face / ModelScope, Self-Hosting via vLLM oder Transformers); Cloud-API via Alibaba DashScope |
| Preis pro Unit | $0,25 / 1M Input-Token; $0,97 / 1M Output-Token (Alibaba Cloud API, Instruct-Variante) |
| Videoanalyse-Fähigkeit | Unterstützt Videoanalyse (Evaluation bei fps=2); bekannte Schwäche bei Langvideo-Benchmarks wegen begrenzter Kontextlänge und Positionsextrapolation (laut Technical Report als künftiges Ziel benannt) |
| Vision-Language Benchmark-Score | MMStar: 68,5 (Instruct-Variante); vergleichbar mit Qwen2.5-VL-72B; übertrifft GPT-4o und Gemini-2.0-Flash auf MMMU-Pro, MathVista und MATH-Vision |