Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Qwen3-VL-32B

#39 in Multimodale Modelle

qwen · v3 · vl 32b · seit 2025-10-21 · 2× · zuletzt 29. Juni 2026

Momentum

Qwen3-VL-32B ist ein dichtes Vision-Language-Modell (33 Mrd. Parameter) der Alibaba-Qwen-Serie, das Texte, Bilder und Videos multimodal verarbeitet. Es unterstützt nativ einen Kontextfenster von 256 K Token (erweiterbar auf 1 M), integriert Zeitstempel-Ausrichtung für Videoanalyse und kann stundenlange Videos verarbeiten. Das Modell wird in zwei Varianten angeboten – Instruct und Thinking – und ist unter der Apache-2.0-Lizenz als Open-Weight-Modell verfügbar. Es ist sowohl für Cloud-API-Nutzung als auch für lokales Self-Hosting ausgelegt.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	256.000 Token nativ (erweiterbar auf 1.000.000 Token)
Multimodale Eingaben	Text, Bilder (einzeln und mehrere), Videos (bis >1,5 Stunden); unterstützt interleaved Text-Bild-Video-Eingaben im selben Kontextfenster
On-Device vs. Cloud	Beides: Open-Weight-Modell (Apache 2.0), lokales Self-Hosting via vLLM/SGLang möglich (21 GB im Ollama-Format); Cloud-API über Alibaba Cloud, OpenRouter und Together AI verfügbar
Preis pro Unit	OpenRouter: $0,104 / 1M Input-Token, $0,416 / 1M Output-Token; Artificial Analysis (Alibaba API): $0,70 / 1M Input-Token, $2,80 / 1M Output-Token

Qwen3-VL-32B

Features

Belege (2)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.