

Qwen2.5-VL-7B
#34 in Multimodale Modellealibaba · v2.5 · vl 7b · seit 2025-01-28 · 2× · zuletzt 29. Juni 2026
10
Momentum
Qwen2.5-VL-7B ist ein Sprachmodell von Alibaba mit Vision-Language-Fähigkeiten. Es wird für die Verarbeitung von Bildfolgen eingesetzt und kann durch optimierte Encoding-Strategien seinen Token-Verbrauch erheblich reduzieren.
Momentum-Verlauf
04.04.03.07.
Features
| Preis pro Unit | Open-Source (Gewichte kostenlos via Hugging Face / ModelScope); API via OpenRouter: $0,20/Mio. Input-Token, $0,20/Mio. Output-Token (Listenpreis Stand 2025, Drittanbieter) |
| Vision-Language Benchmark-Score | DocVQA: 95,7 % | ChartQA: 87,3 % | OCRBench: 86,4 % | Android Control Low_EM: 91,4 % (Quelle: llm-stats.com); übertrifft laut offiziellem Blog GPT-4o-mini in mehreren Aufgaben |