

DeepSeek V3
#3 in Reasoning-Modelledeepseek · v3 · seit 2024-12-26 · 42× · zuletzt 01. Juli 2026
79
Momentum
DeepSeek V3 ist ein Open-Source-Sprachmodell von DeepSeek, das am 26. Dezember 2024 veröffentlicht wurde. Es basiert auf einer Mixture-of-Experts-Architektur (MoE) mit 671 Milliarden Gesamtparametern, von denen pro Token nur 37 Milliarden aktiviert werden. Das Modell wurde auf 14,8 Billionen Token vortrainiert und verwendet Multi-head Latent Attention (MLA) sowie FP8-Training. Es erzielt auf Benchmarks eine mit führenden proprietären Modellen vergleichbare Leistung, insbesondere in Mathematik, Coding und mehrsprachigen Aufgaben.
Momentum-Verlauf
04.04.03.07.
Features
| Key-Benchmark (%) | MMLU: 88,5 % | MATH-500: 90,2 % | GPQA: 59,1 % | Codeforces Percentile: 51,6 % | SWE-Bench Verified: 42,0 % |
| Kontextfenster (Token) | 128.000 Tokens |
| Lizenz | MIT License (Code-Repository); DeepSeek Model License für Modellgewichte – kommerzielle Nutzung erlaubt |
| Multimodalität | Kein natives Multimodal – rein textbasiert. DeepSeek kündigte Multimodal-Support als künftiges Feature an. Separate multimodale Modelle existieren als eigenständige Janus-Serie. |
| Plattform | DeepSeek API (platform.deepseek.com, OpenAI-kompatibler Endpunkt); Self-Hosting via HuggingFace, SGLang, vLLM, TensorRT-LLM, LMDeploy, AMD GPU, Huawei Ascend NPU |
| Preis | Kostenlos (Open Weights, Self-Hosting); API-Zugang über platform.deepseek.com kostenpflichtig per Token |
| Preis pro 1M Token | $0,27 / 1M Input-Token (Cache Miss), $0,07 / 1M Input-Token (Cache Hit), $1,10 / 1M Output-Token (ursprüngliche Einführungspreise zum Launch) |
| Release-Datum | 26. Dezember 2024 |