

Molmo2
#21 in Multimodale Modelleallen-institute · v2 · seit 2025-12-16 · 4× · zuletzt 29. Juni 2026
20
Momentum
Molmo 2 ist eine Familie offener Vision-Language-Modelle (VLMs) des Allen Institute for AI (Ai2), veröffentlicht am 16. Dezember 2025. Die Familie umfasst drei Varianten (4B, 8B, 7B-O) und erweitert den ursprünglichen Molmo um Videoanalyse, Multi-Image-Reasoning sowie räumlich-zeitliches Grounding (Video-Pointing und -Tracking). Alle Gewichte, Trainingsdaten und Evaluierungswerkzeuge sind unter Apache 2.0 frei verfügbar. Das 8B-Modell übertrifft laut technischem Bericht von Ai2 das Vorgängermodell Molmo 72B und schlägt proprietäre Modelle wie Gemini 3 Pro auf Video-Tracking-Aufgaben.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | Molmo2-4B und Molmo2-8B: 36.864 Token; Molmo2-O-7B: 65.536 Token |
| Multimodale Eingaben | Text, Einzelbild, Video, Multi-Image (mehrere Bilder gleichzeitig); Ausgabe: Text; Vision-Backbone: SigLIP 2 (bei 4B/8B); LLM-Basis: Qwen3 (4B/8B) bzw. OLMo (7B-O) |
| On-Device vs. Cloud | Open-Weights-Modell: lokal selbst hostbar (On-Device/Self-Hosted); zusätzlich via Ai2 Playground (Cloud) und bald per API verfügbar; Modellgewichte frei auf Hugging Face und GitHub |
| Preis pro Unit | $0.00 pro 1M Input-Token / $0.00 pro 1M Output-Token (laut Artificial Analysis; Open-Weights-Modell, kostenlos selbst hostbar unter Apache 2.0) |