

Gemini Omni Flash
#3 in Multimodale Modellegoogle · flash · 32× · tolest 03. Juli 2026
93
Momentum
Gemini Omni Flash ist das erste Modell der neuen "Omni"-Familie von Google DeepMind, vorgestellt am 19. Mai 2026 auf der Google I/O. Es handelt sich um ein multimodales, transformer-basiertes Modell, das aus einer Kombination von Text, Bild, Audio und Video hochwertige, kurze Videos (3–10 Sekunden, 720p mit Audio) generiert und diese per natürlichsprachlicher Konversation editierbar macht. Seit Ende Juni 2026 ist das Modell (gemini-omni-flash-preview) auch über die Gemini API und Google AI Studio für Entwickler verfügbar, mit nutzungsbasierter Abrechnung u.a. nach Video-, Bild- und Audio-Token.
Momentum-Verloop
04.04.03.07.
Features
| Key Benchmark (%) | Rank 1 in LMArena Text-to-Video Arena with score 1527 (no official %-value available) |
| Context Window (Tokens) | Not officially specified in tokens; session context includes all previous turns per interaction (Interactions API) |
| License | Proprietary; API usage under Gemini API Additional Terms of Service, documentation content under CC BY 4.0 |
| Multimodality | Input: text, image, audio, video; Output: video with synchronized audio (native multimodal transformer architecture) |
| Platform | Gemini App, Google Flow, YouTube Shorts/Create App, Gemini API, Google AI Studio, Vertex AI/Gemini Enterprise Agent Platform |
| Price per 1M Tokens | $0.10 per second of 720p video output (~$1 per 10s clip); Input: 2,040 tokens/image, 32 tokens/audio sec., 5,792 tokens/video sec. |
| Release Date | May 19, 2026 (Google I/O); API preview for developers since ~June 30, 2026 |