

Mamba-3
#62 in Open-Source-Sprachmodelleunknown · v3 · seit 2026-03-17 · 2× · zuletzt 30. Juni 2026
Mamba-3 ist ein Open-Source State-Space-Modell (SSM), das am 16./17. März 2026 als Konferenzpaper bei ICLR 2026 veröffentlicht wurde. Es führt drei Kerninnovationen gegenüber Mamba-2 ein: eine exponential-trapezoidale Diskretisierung für ausdrucksstärkere Rekurrenz, komplexwertige Zustandsübergänge für besseres State-Tracking sowie eine Multi-Input-Multi-Output-(MIMO-)Formulierung, die die Hardware-Auslastung beim Decoding verbessert ohne die Decode-Latenz zu erhöhen. Das Modell wurde in zwei Varianten veröffentlicht (SISO und MIMO) und ist unter der Apache-2.0-Lizenz frei zugänglich. Bei 1,5 Mrd. Parametern übertrifft Mamba-3 (MIMO) alle Transformer-Baselines und vorherigen linearen Sequenzmodelle auf Standard-Downstream-Benchmarks.
Features
| Inferenz-Geschwindigkeit | Bis zu 7× schneller als Transformer bei langen Sequenzen; MIMO-Variante verbessert Hardware-Auslastung beim Decoding ohne Erhöhung der Decode-Latenz gegenüber Mamba-2. |
| Kontextfenster | 2.048 Tokens (Trainings-Kontextlänge, mit der alle Modelle vortrainiert wurden) |
| Modellgröße (Parameter) | Getestete Skalen: 360M, 760M, 1B, 1,5B Parameter (Hauptbenchmark-Skala: 1,5B). Beide Varianten: SISO und MIMO. |
| Preis-Tier | Kostenlos / Open Source (Apache 2.0); Code auf GitHub, Gewichte auf Hugging Face (state-spaces/mamba) |