

Qwen3.5-Omni
#52 in Multimodale Modellealibaba · v3.5 · omni · seit 2026-03-30 · 20× · zuletzt 30. Juni 2026
Qwen3.5-Omni ist ein von Alibabas Qwen-Team entwickeltes, proprietäres omnimodales Großmodell, das nativ Text, Bild, Audio und Video verarbeitet und Text- sowie Sprachantworten in Echtzeit generiert. Es basiert auf einer Thinker-Talker-Architektur mit Hybrid-Attention-Mixture-of-Experts (MoE) und skaliert auf mehrere hundert Milliarden Parameter. Das Modell wurde am 30. März 2026 veröffentlicht, unterstützt ein Kontextfenster von 256K Tokens und erzielte laut Hersteller SOTA-Ergebnisse auf 215 Audio- und audiovisuellen Benchmarks, teils über dem Niveau von Gemini-3.1 Pro. Es ist in drei Varianten (Plus, Flash, Light) über die DashScope-API bzw. Qwen Chat verfügbar; die Gewichte sind – anders als beim Vorgänger Qwen3-Omni – nicht offen zugänglich.
Features
| Kontextfenster (Token) | 256.000 Token (alle drei Varianten: Plus, Flash, Light) – entspricht >10 Stunden Audio oder >400 Sekunden 720p-Video bei 1 FPS |
| Lizenz | Proprietär (closed-source); keine öffentlichen Modellgewichte – ausschließlich Zugang per Alibaba Cloud API (DashScope / Model Studio) und Qwen Chat |
| Plattform | Alibaba Cloud Model Studio (DashScope) – Offline API & Realtime API; OpenAI-kompatibler Endpunkt; Zugang auch via Qwen Chat (chat.qwen.ai) und Hugging Face Demo |
| Release-Datum | 30. März 2026 |