

Qwen3-VL-30B-A3B
#41 in Multimodale Modelleqwen · v3 · vl 30b a3b · seit 2025-10-04 · 2× · zuletzt 29. Juni 2026
10
Momentum
Qwen3-VL-30B-A3B ist ein multimodales Vision-Language-Modell von Alibabas Qwen-Team, das auf einer Mixture-of-Experts-Architektur (MoE) basiert: 30,5 Mrd. Gesamtparameter, davon nur ca. 3,3 Mrd. pro Inferenz aktiviert. Es verarbeitet Text, Bilder und Videos in einem einheitlichen Kontext und unterstützt nativ ein Kontextfenster von 256K Tokens (erweiterbar auf 1 Mio.). Das Modell ist unter der Apache-2.0-Lizenz als Open-Weight-Modell verfügbar und kann sowohl lokal (On-Device, z. B. mit 4-Bit-Quantisierung auf 32 GB RAM) als auch über Cloud-APIs betrieben werden.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | Nativ 256K Tokens (262.144 gemäß API-Dokumentation); erweiterbar auf 1 Mio. Tokens; max. Output 32.768 Tokens |
| Multimodale Eingaben | Text, Bilder und Videos (auch interleaved / Multi-Image Multi-Turn); zusätzlich OCR in 32 Sprachen, 2D/3D-Spatial-Grounding, GUI-Screenshots |
| On-Device vs. Cloud | Beides möglich: Open-Weight (Apache 2.0), lokal deploybar via vLLM / SGLang / llama.cpp / Ollama (läuft mit 4-Bit-Quantisierung auf 32 GB RAM); Cloud-API via OpenRouter, DeepInfra, SiliconFlow u. a. |
| Preis pro Unit | $0,13 pro Mio. Input-Token / $0,52 pro Mio. Output-Token (Instruct-Variante via OpenRouter) |
| Vision-Language Benchmark-Score | DocVQA (test): 95,0 % | ScreenSpot: 94,7 % | OCRBench: 90,3 % | MMLU-Redux: 88,4 % | MMBench-V1.1: 87,0 % (Instruct-Variante) |