Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

GLM-4.5V

#36 in Multimodale Modelle

zhipu · v4.5v · seit 2025-08-11 · 2× · zuletzt 29. Juni 2026

Momentum

GLM-4.5V ist ein multimodales Vision-Language-Modell von Zhipu AI (Z.ai), das auf der GLM-4.5-Air-Architektur basiert (106B Gesamtparameter, 12B aktive Parameter, MoE-Architektur). Das Modell wurde am 11. August 2025 als Open-Source unter MIT-Lizenz veröffentlicht und unterstützt Bilder, Videos und Texte als Eingabe. Es erreicht auf 42 öffentlichen Vision-Language-Benchmarks State-of-the-Art-Ergebnisse unter Open-Source-Modellen vergleichbarer Größe und bietet einen umschaltbaren „Thinking Mode" für tiefes Schlussfolgern.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	65.536 Token Kontextfenster (OpenRouter); SiliconFlow nennt 66K; max. Output 16.384 Token
Multimodale Eingaben	Text, Bilder (native Auflösung/Seitenverhältnis), Videos; Tool Use; unterstützte Aufgaben: Image Q&A, OCR, Document Parsing, GUI Agents, Visual Grounding, Video Understanding, Frontend-Coding
On-Device vs. Cloud	Cloud-API (via Z.ai / bigmodel.cn, OpenRouter, Fireworks, Novita u. a.); Open-Source (MIT), selbst-hostbar mit FP8/BF16 via Transformers, vLLM, SGLang
Preis pro Unit	$0,60 pro 1M Input-Token / $1,80 pro 1M Output-Token (via OpenRouter, TypingMind, developer.puter.com – Stand Jun 2026)
Videoanalyse-Fähigkeit	Unterstützt Long-Video-Segmentierung und Ereigniserkennung (VideoMME, MMVU, LVBench); Zeitstempel-Token-Encoding für temporales Verständnis; Benchmarks: VideoMME, MMVU, MotionBench, MVBench, LVBench

GLM-4.5V

Features

Belege (2)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.