

GLM-4.5V
#36 in Multimodale Modellezhipu · v4.5v · seit 2025-08-11 · 2× · zuletzt 29. Juni 2026
10
Momentum
GLM-4.5V ist ein multimodales Vision-Language-Modell von Zhipu AI (Z.ai), das auf der GLM-4.5-Air-Architektur basiert (106B Gesamtparameter, 12B aktive Parameter, MoE-Architektur). Das Modell wurde am 11. August 2025 als Open-Source unter MIT-Lizenz veröffentlicht und unterstützt Bilder, Videos und Texte als Eingabe. Es erreicht auf 42 öffentlichen Vision-Language-Benchmarks State-of-the-Art-Ergebnisse unter Open-Source-Modellen vergleichbarer Größe und bietet einen umschaltbaren „Thinking Mode" für tiefes Schlussfolgern.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | 65.536 Token Kontextfenster (OpenRouter); SiliconFlow nennt 66K; max. Output 16.384 Token |
| Multimodale Eingaben | Text, Bilder (native Auflösung/Seitenverhältnis), Videos; Tool Use; unterstützte Aufgaben: Image Q&A, OCR, Document Parsing, GUI Agents, Visual Grounding, Video Understanding, Frontend-Coding |
| On-Device vs. Cloud | Cloud-API (via Z.ai / bigmodel.cn, OpenRouter, Fireworks, Novita u. a.); Open-Source (MIT), selbst-hostbar mit FP8/BF16 via Transformers, vLLM, SGLang |
| Preis pro Unit | $0,60 pro 1M Input-Token / $1,80 pro 1M Output-Token (via OpenRouter, TypingMind, developer.puter.com – Stand Jun 2026) |
| Videoanalyse-Fähigkeit | Unterstützt Long-Video-Segmentierung und Ereigniserkennung (VideoMME, MMVU, LVBench); Zeitstempel-Token-Encoding für temporales Verständnis; Benchmarks: VideoMME, MMVU, MotionBench, MVBench, LVBench |