

Nemotron 3 Nano Omni
#18 in Multimodale Modellenvidia · v3 · nano omni · seit 2026-04-28 · 26× · zuletzt 30. Juni 2026
NVIDIA Nemotron 3 Nano Omni ist ein offenes multimodales Large Language Model mit 30 Milliarden Gesamtparametern und nur 3 Milliarden aktiven Parametern pro Inferenz (MoE-Prinzip). Es basiert auf einer hybriden Mamba-Transformer-MoE-Architektur und verarbeitet Text, Bild, Video und Audio nativ in einer einzigen Inferenzschleife mit Textausgabe. Das Modell ist darauf ausgelegt, als multimodaler Wahrnehmungs-Subagent in größeren agentischen Systemen zu fungieren. Es wurde mit einem Kontextfenster von bis zu 256.000 Token (max. 300.000 laut einigen Quellen) trainiert und erzielt laut NVIDIA Spitzenwerte auf mehreren multimodalen Leaderboards (MMlongbench-Doc, OCRBenchV2, WorldSense, DailyOmni, VoiceBench, MediaPerf).
Features
| Kontextfenster (Token) | 256.000 Token (offizielles Kontextfenster laut NVIDIA NIM / HuggingFace Model Card); max. 300.000 Token laut OpenRouter-Listing |
| Lizenz | NVIDIA Open Model License (Nemotron Open Model License) – kommerziell nutzbar, mit modellspezifischen Bedingungen (kein Apache 2.0) |
| Release-Datum | 28. April 2026 |