

Qwen2.5-32B-Instruct
#51 in Open-Source-Sprachmodellealibaba · v2.5 · 32b instruct · seit 2024-09-19 · 3× · zuletzt 30. Juni 2026
9
Momentum
Qwen2.5-32B-Instruct ist ein instruction-feinabgestimmtes Open-Weight-Sprachmodell von Alibaba Cloud (Qwen-Team) mit 32,5 Milliarden Parametern, veröffentlicht im September 2024 unter der Apache-2.0-Lizenz. Das Modell unterstützt Kontextfenster von bis zu 128.000 Tokens und kann bis zu 8.192 Tokens generieren. Es wurde auf 18 Billionen Tokens vortrainiert und zeigt gegenüber Qwen2 deutliche Verbesserungen in Instruktionsfolgen, Coding, Mathematik und strukturierten Ausgaben (JSON). Das Modell ist als Open-Weight-Modell frei herunterladbar und über verschiedene API-Anbieter zugänglich.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster | 131.072 Tokens (128K) maximale Eingabelänge; maximale Ausgabe 8.192 Tokens. Standard-config.json auf 32.768 Tokens gesetzt, Long-Context per rope_scaling aktivierbar. |
| Modellgröße (Parameter) | 32,5 Milliarden Parameter (32.5B); 64 Transformer-Schichten; Architektur: Dense Decoder-only mit RoPE, SwiGLU, RMSNorm, Attention QKV Bias |
| Preis-Tier | Open-Weight / kostenlos self-hostbar (Apache 2.0). Via OpenRouter API: ca. $0,79/M Input-Token und $0,40/M Output-Token (Stand März 2025). Pay-as-you-go ohne Abo-Pflicht. |
| Speicher-Anforderung | ca. 65 GB VRAM bei BF16/FP16 (Vollpräzision, Inferenz inkl. Gewichte + KV-Cache); ca. 33 GB bei INT8; ca. 18 GB bei INT4-Quantisierung. Empfohlene GPU für FP16: A100 80 GB. |