

Step 3.7
#69 in Frontier-Sprachmodellestepfun · v3.7 · seit 29. Mai 2026 · 11× · zuletzt 29. Juni 2026
Step 3.7 Flash ist ein von StepFun (Jieyue Xingchen) entwickeltes multimodales Sprachmodell mit einer Sparse-Mixture-of-Experts-Architektur (198 Mrd. Gesamtparameter, ca. 11 Mrd. aktive Parameter pro Token) und einem integrierten 1,8-Mrd.-Parameter-Vision-Encoder für native Bild- und Videoverarbeitung. Das Modell ist auf agentenbasierte Workflows, Coding, Tool-Nutzung und Langkontext-Aufgaben ausgelegt, unterstützt ein 256K-Token-Kontextfenster sowie drei wählbare Reasoning-Stufen (low/medium/high) und wird unter Apache-2.0-Lizenz als Open-Weight-Modell bereitgestellt. Es wurde am 29. Mai 2026 veröffentlicht und ist über die StepFun-API, Hugging Face, GitHub, OpenRouter sowie NVIDIA NIM verfügbar.
Features
| Key-Benchmark (%) | SWE-Bench Pro: 56,26%; ClawEval-1.1: 67,07% (jeweils führend unter verglichenen Modellen) |
| Kontextfenster (Token) | 256.000 Token (256K) |
| Lizenz | Apache 2.0 (Open Weights) |
| Multimodalität | Text- und Bildeingabe (nativ), Video-Verständnis; Textausgabe; 1,8B-Parameter Vision-Encoder (ViT) |
| Plattform | StepFun API (platform.stepfun.ai / platform.stepfun.com), Hugging Face, GitHub, OpenRouter, NVIDIA NIM |
| Preis pro 1M Token | $0,20 Input / $1,15 Output (StepFun API) |
| Release-Datum | 29. Mai 2026 |