

Gemini Omni Flash
#3 in Multimodale Modellegoogle · flash · 32× · zuletzt 03. Juli 2026
93
Momentum
Gemini Omni Flash ist das erste Modell der neuen "Omni"-Familie von Google DeepMind, vorgestellt am 19. Mai 2026 auf der Google I/O. Es handelt sich um ein multimodales, transformer-basiertes Modell, das aus einer Kombination von Text, Bild, Audio und Video hochwertige, kurze Videos (3–10 Sekunden, 720p mit Audio) generiert und diese per natürlichsprachlicher Konversation editierbar macht. Seit Ende Juni 2026 ist das Modell (gemini-omni-flash-preview) auch über die Gemini API und Google AI Studio für Entwickler verfügbar, mit nutzungsbasierter Abrechnung u.a. nach Video-, Bild- und Audio-Token.
Momentum-Verlauf
04.04.03.07.
Features
| Key-Benchmark (%) | Platz 1 in LMArena Text-to-Video Arena mit Score 1527 (kein %-Wert offiziell verfügbar) |
| Kontextfenster (Token) | Nicht offiziell in Token beziffert; Session-Kontext inkl. aller vorherigen Turns pro Interaktion (Interactions API) |
| Lizenz | Proprietär; API-Nutzung unter Gemini API Additional Terms of Service, Doku-Inhalte unter CC BY 4.0 |
| Multimodalität | Input: Text, Bild, Audio, Video; Output: Video mit synchronisiertem Audio (native multimodale Transformer-Architektur) |
| Plattform | Gemini App, Google Flow, YouTube Shorts/Create App, Gemini API, Google AI Studio, Vertex AI/Gemini Enterprise Agent Platform |
| Preis pro 1M Token | $0,10 pro Sekunde 720p-Videoausgabe (~$1 pro 10s-Clip); Input: 2040 Token/Bild, 32 Token/Audio-Sek., 5792 Token/Video-Sek. |
| Release-Datum | 19. Mai 2026 (Google I/O); API-Preview für Entwickler seit ~30. Juni 2026 |