Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Qwen3-Omni-30B

#37 in Multimodale Modelle

qwen · v3 · omni 30b · seit 2025-09-22 · 2× · zuletzt 29. Juni 2026

Momentum

Qwen3-Omni-30B ist ein nativ end-to-end trainiertes, omnimodales Sprachmodell von Alibabas Qwen-Team mit einer Mixture-of-Experts-Architektur (30 Mrd. Gesamtparameter, 3 Mrd. aktive Parameter). Es verarbeitet Text, Bild, Audio und Video gleichzeitig und gibt sowohl Text als auch Sprache in Echtzeit aus. Das Modell wird unter Apache-2.0-Lizenz als Open-Weight-Modell bereitgestellt und ist zugleich über Alibabas DashScope-API abrufbar. Laut dem offiziellen Technical Report erreicht Qwen3-Omni auf 32 von 36 Audio- und audiovisuellen Benchmarks Open-Source-SOTA und übertrifft geschlossene Systeme wie Gemini-2.5-Pro auf 22 Benchmarks.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	32.768 Token nativ (Instruct-Variante); Thinking-Variante bis 65.536 Token
Multimodale Eingaben	Text, Bild, Audio, Video (Eingabe); Text + natürliche Sprache (Ausgabe, Echtzeit-Streaming)
On-Device vs. Cloud	Beides: Open-Weight unter Apache 2.0 (Hugging Face / ModelScope, Self-Hosting via vLLM oder Transformers); Cloud-API via Alibaba DashScope
Preis pro Unit	$0,25 / 1M Input-Token; $0,97 / 1M Output-Token (Alibaba Cloud API, Instruct-Variante)
Videoanalyse-Fähigkeit	Unterstützt Videoanalyse (Evaluation bei fps=2); bekannte Schwäche bei Langvideo-Benchmarks wegen begrenzter Kontextlänge und Positionsextrapolation (laut Technical Report als künftiges Ziel benannt)
Vision-Language Benchmark-Score	MMStar: 68,5 (Instruct-Variante); vergleichbar mit Qwen2.5-VL-72B; übertrifft GPT-4o und Gemini-2.0-Flash auf MMMU-Pro, MathVista und MATH-Vision

Qwen3-Omni-30B

Features

Belege (2)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.