

Qwen 2.5 Coder 32B
#85 in Open-Source-Sprachmodellealibaba · v2.5 · coder 32b · seit 2024-11-12 · 2× · zuletzt 30. Juni 2026
2
Momentum
Qwen 2.5 Coder 32B (auch: Qwen2.5-Coder-32B-Instruct) ist ein quelloffenes, auf Code spezialisiertes Sprachmodell von Alibaba Cloud, das auf der Qwen2.5-Architektur aufbaut und auf über 5,5 Billionen Tokens (Code, natürliche Sprache, synthetische Daten) trainiert wurde. Es unterstützt 92 Programmiersprachen und erreicht bei Coding-Benchmarks ein Niveau vergleichbar mit GPT-4o. Das Modell wird unter der Apache-2.0-Lizenz veröffentlicht und kann lokal auf Hardware mit mindestens 32 GB RAM betrieben werden. Es ist als Open-Weight-Modell frei herunterladbar und auch über mehrere Cloud-APIs verfügbar.
Momentum-Verlauf
04.04.03.07.
Features
| Benchmark-Score (MMLU/ähnlich) | HumanEval: 92,7 % pass@1; LiveCodeBench: 37,2 % (schlägt GPT-4o mit 29,2 %); Aider Benchmark: 73,7 % (Rang 4); MMLU (Qwen2.5-32B-Basis): 83,32 |
| Inferenz-Geschwindigkeit | Lokal (Apple M2 Max, 64 GB, Q4_K_M): ~12–15 Tokens/s; auf A100-80 GB via vLLM: BF16 full-speed; Consumer-Test (64 GB MacBook Pro M2): ~10 Tokens/s |
| Kontextfenster | 128.000 Tokens (natives Kontextfenster; config.json-Standard: 32.768 Tokens, via RoPE/YaRN auf 128K erweiterbar) |
| Modellgröße (Parameter) | 32,8 Milliarden Parameter (dense Transformer, kein MoE) |
| Preis-Tier | Open-Weight (kostenlos self-hostbar, Apache 2.0); API ab $0,09 / 1M Input- und Output-Tokens (via Lambda); auf OpenRouter verfügbar |
| Speicher-Anforderung | FP16-Inferenz: ~71 GB VRAM; INT4-Quantisierung: ~18 GB VRAM; lokal auf Apple Silicon (MLX): ~32 GB Unified Memory |