Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Gemini Omni Flash

#3 in Multimodale Modelle

google · flash · 32× · zuletzt 03. Juli 2026

Momentum

Gemini Omni Flash ist das erste Modell der neuen "Omni"-Familie von Google DeepMind, vorgestellt am 19. Mai 2026 auf der Google I/O. Es handelt sich um ein multimodales, transformer-basiertes Modell, das aus einer Kombination von Text, Bild, Audio und Video hochwertige, kurze Videos (3–10 Sekunden, 720p mit Audio) generiert und diese per natürlichsprachlicher Konversation editierbar macht. Seit Ende Juni 2026 ist das Modell (gemini-omni-flash-preview) auch über die Gemini API und Google AI Studio für Entwickler verfügbar, mit nutzungsbasierter Abrechnung u.a. nach Video-, Bild- und Audio-Token.

Momentum-Verlauf

04.04.03.07.

Features

Key-Benchmark (%)	Platz 1 in LMArena Text-to-Video Arena mit Score 1527 (kein %-Wert offiziell verfügbar)
Kontextfenster (Token)	Nicht offiziell in Token beziffert; Session-Kontext inkl. aller vorherigen Turns pro Interaktion (Interactions API)
Lizenz	Proprietär; API-Nutzung unter Gemini API Additional Terms of Service, Doku-Inhalte unter CC BY 4.0
Multimodalität	Input: Text, Bild, Audio, Video; Output: Video mit synchronisiertem Audio (native multimodale Transformer-Architektur)
Plattform	Gemini App, Google Flow, YouTube Shorts/Create App, Gemini API, Google AI Studio, Vertex AI/Gemini Enterprise Agent Platform
Preis pro 1M Token	$0,10 pro Sekunde 720p-Videoausgabe (~$1 pro 10s-Clip); Input: 2040 Token/Bild, 32 Token/Audio-Sek., 5792 Token/Video-Sek.
Release-Datum	19. Mai 2026 (Google I/O); API-Preview für Entwickler seit ~30. Juni 2026

Gemini Omni Flash

Features

Belege (32)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.