Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Gemini Omni

#6 in Multimodale Modelle

google · seit Mai 2026 · 125× · zuletzt 02. Juli 2026

Momentum

Gemini Omni ist ein nativ multimodales Videogenerierungs- und Bearbeitungsmodell von Google DeepMind, das Text, Bilder, Audio und vorhandene Videos als Input akzeptiert und Videos mit synchronisiertem Audio als Output produziert. Das Modell ermöglicht iterative, konversationsbasierte Videobearbeitung durch Mehrfachdurchläufe. Gemini Omni Flash wurde am 19. Mai 2026 bei Google I/O gestartet und ist über die Gemini-App, Google Flow und YouTube Shorts verfügbar.

Momentum-Verlauf

04.04.03.07.

Features

Key-Benchmark (%)	#1 Overall Preference & Instruction Following (MovieGenBench, 1.003 Prompts, Meta); #1 Text-to-Video & Image-to-Video (interne Benchmarks, Human Side-by-Side, 504 Beispiele).
Lizenz	Proprietär (Google). Nutzung gemäß Gemini API Additional Terms of Service & Gen AI Prohibited Use Policy.
Multimodalität	Input: Text, Bild, Audio, Video (simultan). Output: Video mit nativem Audio (bis 10 Sek., 720p). Architektur: Transformer-basiert, nativ multimodal.
Plattform	Gemini App, Google Flow (AI Plus/Pro/Ultra); YouTube Shorts & YouTube Create (kostenlos, 18+); API via Gemini API / Vertex AI (Preview)
Preis	Kostenlos: YouTube Shorts / YouTube Create (18+). Gemini App: AI Plus ab ~$7,99/Mo, AI Pro $19,99/Mo, AI Ultra $100–$200/Mo. API-Preise noch nicht offiziell veröffentlicht.
Preis pro 1M Token	API-Preise nicht offiziell veröffentlicht (Stand: Mitte Juni 2026). Vertex AI: 5792 Tokens/Sek. für Video-Input & -Output (720p); genaue Token-$/1M-Rate noch ausstehend.
Release-Datum	19. Mai 2026 (Google I/O 2026) – erstes Modell: Gemini Omni Flash

Gemini Omni

Features

Belege (60)

Weitere Produkte in dieser Kategorie: Multimodale Modelle

Subscribe free. Unsubscribe the second it sucks.