Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

oMLX

#10 in Lokale LLM-Runtimes

omlx · seit 2026-02-13 · 2× · zuletzt 29. Juni 2026

Momentum

oMLX ist ein nativer macOS-Inferenz-Server für Apple Silicon (M1 oder neuer), der auf Apples MLX-Framework aufbaut. Das Kernmerkmal ist ein zweistufiger KV-Cache (Hot-Tier im RAM, Cold-Tier auf SSD im safetensors-Format), der Cache-Blöcke auch über Server-Neustarts hinweg persistent hält. Der Server unterstützt Text-LLMs, VLMs, OCR-Modelle, Embeddings und Reranker und stellt sowohl eine OpenAI-kompatible als auch eine Anthropic-kompatible REST-API bereit. Verwaltet wird er über eine native macOS-Menüleisten-App (kein Electron) mit ergänzendem Web-Admin-Dashboard.

Momentum-Verlauf

04.04.03.07.

Features

API-Typ	OpenAI-kompatibel (/v1/chat/completions) + Anthropic-kompatibel (/v1/messages); FastAPI-basiert
Inference-Backend	Apple MLX (mlx-lm / mlx-vlm); BatchGenerator für Continuous Batching; zweistufiger Paged-KV-Cache (RAM + SSD)
Maximale Modellgröße (GB RAM)	Minimum 16 GB RAM; 64 GB+ empfohlen; getestete Konfigurationen bis 512 GB (Mac Studio M3 Ultra)
Plattformen (OS-Unterstützung)	macOS 15+ (Sequoia) auf Apple Silicon (M1/M2/M3/M4) — kein Windows, kein Linux, kein Intel Mac
Preis-Tier	Kostenlos, Open Source (Apache License 2.0)
UI-Typ	Native macOS-Menüleisten-App (SwiftUI/PyObjC, kein Electron) + Web-Admin-Dashboard (/admin) für Modellverwaltung, Chat, Benchmarks und Monitoring

oMLX

Features

Belege (2)

Weitere Produkte in dieser Kategorie: Lokale LLM-Runtimes

Subscribe free. Unsubscribe the second it sucks.