

Qwen3-VL-32B
#39 in Multimodale Modelleqwen · v3 · vl 32b · seit 2025-10-21 · 2× · zuletzt 29. Juni 2026
10
Momentum
Qwen3-VL-32B ist ein dichtes Vision-Language-Modell (33 Mrd. Parameter) der Alibaba-Qwen-Serie, das Texte, Bilder und Videos multimodal verarbeitet. Es unterstützt nativ einen Kontextfenster von 256 K Token (erweiterbar auf 1 M), integriert Zeitstempel-Ausrichtung für Videoanalyse und kann stundenlange Videos verarbeiten. Das Modell wird in zwei Varianten angeboten – Instruct und Thinking – und ist unter der Apache-2.0-Lizenz als Open-Weight-Modell verfügbar. Es ist sowohl für Cloud-API-Nutzung als auch für lokales Self-Hosting ausgelegt.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | 256.000 Token nativ (erweiterbar auf 1.000.000 Token) |
| Multimodale Eingaben | Text, Bilder (einzeln und mehrere), Videos (bis >1,5 Stunden); unterstützt interleaved Text-Bild-Video-Eingaben im selben Kontextfenster |
| On-Device vs. Cloud | Beides: Open-Weight-Modell (Apache 2.0), lokales Self-Hosting via vLLM/SGLang möglich (21 GB im Ollama-Format); Cloud-API über Alibaba Cloud, OpenRouter und Together AI verfügbar |
| Preis pro Unit | OpenRouter: $0,104 / 1M Input-Token, $0,416 / 1M Output-Token; Artificial Analysis (Alibaba API): $0,70 / 1M Input-Token, $2,80 / 1M Output-Token |