Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Qwen3-VL-30B-A3B

#41 in Multimodale Modelle

qwen · v3 · vl 30b a3b · seit 2025-10-04 · 2× · zuletzt 29. Juni 2026

Momentum

Qwen3-VL-30B-A3B ist ein multimodales Vision-Language-Modell von Alibabas Qwen-Team, das auf einer Mixture-of-Experts-Architektur (MoE) basiert: 30,5 Mrd. Gesamtparameter, davon nur ca. 3,3 Mrd. pro Inferenz aktiviert. Es verarbeitet Text, Bilder und Videos in einem einheitlichen Kontext und unterstützt nativ ein Kontextfenster von 256K Tokens (erweiterbar auf 1 Mio.). Das Modell ist unter der Apache-2.0-Lizenz als Open-Weight-Modell verfügbar und kann sowohl lokal (On-Device, z. B. mit 4-Bit-Quantisierung auf 32 GB RAM) als auch über Cloud-APIs betrieben werden.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	Nativ 256K Tokens (262.144 gemäß API-Dokumentation); erweiterbar auf 1 Mio. Tokens; max. Output 32.768 Tokens
Multimodale Eingaben	Text, Bilder und Videos (auch interleaved / Multi-Image Multi-Turn); zusätzlich OCR in 32 Sprachen, 2D/3D-Spatial-Grounding, GUI-Screenshots
On-Device vs. Cloud	Beides möglich: Open-Weight (Apache 2.0), lokal deploybar via vLLM / SGLang / llama.cpp / Ollama (läuft mit 4-Bit-Quantisierung auf 32 GB RAM); Cloud-API via OpenRouter, DeepInfra, SiliconFlow u. a.
Preis pro Unit	$0,13 pro Mio. Input-Token / $0,52 pro Mio. Output-Token (Instruct-Variante via OpenRouter)
Vision-Language Benchmark-Score	DocVQA (test): 95,0 % \| ScreenSpot: 94,7 % \| OCRBench: 90,3 % \| MMLU-Redux: 88,4 % \| MMBench-V1.1: 87,0 % (Instruct-Variante)

Qwen3-VL-30B-A3B

Features

Belege (2)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.