Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
zhipu

GLM-4.5V

#36 in Multimodale Modelle

zhipu · v4.5v · seit 2025-08-11 · 2× · zuletzt 29. Juni 2026

10
Momentum

GLM-4.5V ist ein multimodales Vision-Language-Modell von Zhipu AI (Z.ai), das auf der GLM-4.5-Air-Architektur basiert (106B Gesamtparameter, 12B aktive Parameter, MoE-Architektur). Das Modell wurde am 11. August 2025 als Open-Source unter MIT-Lizenz veröffentlicht und unterstützt Bilder, Videos und Texte als Eingabe. Es erreicht auf 42 öffentlichen Vision-Language-Benchmarks State-of-the-Art-Ergebnisse unter Open-Source-Modellen vergleichbarer Größe und bietet einen umschaltbaren „Thinking Mode" für tiefes Schlussfolgern.

Momentum-Verlauf
04.04.03.07.

Features

Kontextfenster (Token)65.536 Token Kontextfenster (OpenRouter); SiliconFlow nennt 66K; max. Output 16.384 Token
Multimodale EingabenText, Bilder (native Auflösung/Seitenverhältnis), Videos; Tool Use; unterstützte Aufgaben: Image Q&A, OCR, Document Parsing, GUI Agents, Visual Grounding, Video Understanding, Frontend-Coding
On-Device vs. CloudCloud-API (via Z.ai / bigmodel.cn, OpenRouter, Fireworks, Novita u. a.); Open-Source (MIT), selbst-hostbar mit FP8/BF16 via Transformers, vLLM, SGLang
Preis pro Unit$0,60 pro 1M Input-Token / $1,80 pro 1M Output-Token (via OpenRouter, TypingMind, developer.puter.com – Stand Jun 2026)
Videoanalyse-FähigkeitUnterstützt Long-Video-Segmentierung und Ereigniserkennung (VideoMME, MMVU, LVBench); Zeitstempel-Token-Encoding für temporales Verständnis; Benchmarks: VideoMME, MMVU, MotionBench, MVBench, LVBench

Belege (2)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.