

VOID
#21 in KI-Video-Editingnetflix · seit 2. April 2026 (arXiv-Paper); Code/Gewichte auf GitHub und Hugging Face ab ca. 2.–4. April 2026 öffentlich verfügbar · 21× · zuletzt 30. Juni 2026
VOID (Video Object and Interaction Deletion) ist ein von Netflix-Forschern gemeinsam mit INSAIT Sofia University entwickeltes, quelloffenes KI-Framework zur Objektentfernung in Videos. Anders als klassische Inpainting-Tools erkennt VOID mittels eines Vision-Language-Modells (Gemini) auch physische Folgewirkungen eines entfernten Objekts – etwa fallende Gegenstände oder ausbleibende Kollisionen – und rendert diese über ein zweistufiges, CogVideoX-basiertes Diffusionsmodell mit einer speziellen 4-Werte-"Quadmask" neu. Das Modell wurde am 2./3. April 2026 als Paper, Code (GitHub) und Gewichte (Hugging Face) unter Apache-2.0-Lizenz veröffentlicht und benötigt für die Inferenz eine GPU mit mindestens 40 GB VRAM. Es handelt sich laut Netflix um einen Forschungs-Release, nicht um ein kommerzielle
Features
| Ausgabeformate | Video-zu-Video (MP4); Auflösung 384x672, bis zu ca. 197 Frames |
| Basis-Modell | CogVideoX-Fun-V1.5-5b-InP (Alibaba PAI, 5B Parameter Video-Diffusionsmodell), feinabgestimmt mit interaktionsbewusster Quadmask-Konditionierung |
| Integrationen | Nutzt SAM2 (Meta) für Segmentierung und Gemini 3 Pro (Google) für VLM-Szenenanalyse; Basis CogVideoX-Fun-V1.5-5b-InP (Alibaba PAI) |
| Kollaboration | Community-Adoption via GitHub/Hugging Face; öffentliche Gradio-Demo (Space: sam-motamed/VOID) zum Testen ohne eigene Hardware |
| Lizenz | Apache License 2.0 (Code und Modellgewichte, kommerzielle Nutzung erlaubt) |
| Plattform | GitHub (netflix/void-model), Hugging Face Model Hub + Gradio-Demo-Space, Colab-Notebook; lokal via Python/CLI |
| Preis | Kostenlos (Open Source, keine Gebühren) |
| Release-Datum | arXiv-Paper 2. April 2026; Code/Modellgewichte ca. 2.–4. April 2026 veröffentlicht |