Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
qwen

Qwen3-VL-30B-A3B

#41 in Multimodale Modelle

qwen · v3 · vl 30b a3b · seit 2025-10-04 · 2× · zuletzt 29. Juni 2026

10
Momentum

Qwen3-VL-30B-A3B ist ein multimodales Vision-Language-Modell von Alibabas Qwen-Team, das auf einer Mixture-of-Experts-Architektur (MoE) basiert: 30,5 Mrd. Gesamtparameter, davon nur ca. 3,3 Mrd. pro Inferenz aktiviert. Es verarbeitet Text, Bilder und Videos in einem einheitlichen Kontext und unterstützt nativ ein Kontextfenster von 256K Tokens (erweiterbar auf 1 Mio.). Das Modell ist unter der Apache-2.0-Lizenz als Open-Weight-Modell verfügbar und kann sowohl lokal (On-Device, z. B. mit 4-Bit-Quantisierung auf 32 GB RAM) als auch über Cloud-APIs betrieben werden.

Momentum-Verlauf
04.04.03.07.

Features

Kontextfenster (Token)Nativ 256K Tokens (262.144 gemäß API-Dokumentation); erweiterbar auf 1 Mio. Tokens; max. Output 32.768 Tokens
Multimodale EingabenText, Bilder und Videos (auch interleaved / Multi-Image Multi-Turn); zusätzlich OCR in 32 Sprachen, 2D/3D-Spatial-Grounding, GUI-Screenshots
On-Device vs. CloudBeides möglich: Open-Weight (Apache 2.0), lokal deploybar via vLLM / SGLang / llama.cpp / Ollama (läuft mit 4-Bit-Quantisierung auf 32 GB RAM); Cloud-API via OpenRouter, DeepInfra, SiliconFlow u. a.
Preis pro Unit$0,13 pro Mio. Input-Token / $0,52 pro Mio. Output-Token (Instruct-Variante via OpenRouter)
Vision-Language Benchmark-ScoreDocVQA (test): 95,0 % | ScreenSpot: 94,7 % | OCRBench: 90,3 % | MMLU-Redux: 88,4 % | MMBench-V1.1: 87,0 % (Instruct-Variante)

Belege (2)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.