Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

vLLM

#1 in LLM-Inferenz & Serving

vllm · seit Juni 2023 (offizielles erstes Release) · 40× · zuletzt 30. Juni 2026

100

Momentum

vLLM ist eine quelloffene Inferenz- und Serving-Engine für Large Language Models (LLMs), ursprünglich am Sky Computing Lab der UC Berkeley entwickelt und seit 2023 als Community-Projekt gepflegt. Die Kernarchitektur basiert auf PagedAttention (virtuelle Speicherverwaltung des KV-Cache) und Continuous Batching, was deutlich höheren Durchsatz gegenüber naiven Serving-Ansätzen ermöglicht. vLLM unterstützt über 200 Modellarchitekturen von Hugging Face und läuft auf einer breiten Palette von Hardware-Beschleunigern. Das Projekt ist kostenlos nutzbar (Apache 2.0) und wird durch ein Ökosystem von über 2.000 Contributors sowie Unterstützer wie NVIDIA, AMD, Google, AWS und Intel betrieben.

Momentum-Verlauf

04.04.03.07.

Features

Lizenz	Apache License 2.0
Preis	Kostenlos / Open Source (keine Lizenzkosten; Spenden via GitHub & OpenCollective)
Release-Datum	Juni 2023 (erstes offizielles Release); aktuell v0.24.0 auf PyPI (Stand Juli 2026)

vLLM

Features

Belege (40)

Weitere Produkte in dieser Kategorie: LLM-Inferenz & Serving

Subscribe free. Unsubscribe the second it sucks.