

AVTR-1 Real-Time Open Weights Model
#43 in Open-Source-Sprachmodelleavtr · v1 · real time open weights · seit 2026-05-26 · 3× · zuletzt 30. Juni 2026
AVTR-1 ist ein Open-Weights-Echtzeit-Avatar-Modell von Avaturn (Goodsize Inc.), das auf Flow-Matching und autoregressiver Architektur basiert und speziell für Live-Dialog entwickelt wurde. Es nimmt ein Porträtbild und zwei parallele Audioströme (Sprechen + Zuhören) entgegen und generiert jeden Frame des Gesichts vollständig in Echtzeit mit 25 fps auf einer einzelnen GPU, anstatt einen voraufgenommenen Videoclip mit einem generierten Mund zu überlagern. Das Modell arbeitet im Full-Duplex-Modus, d. h. der Avatar reagiert auch während des Sprechens des Nutzers, ohne auf eine Gesprächspause zu warten. Modellgewichte, Inferenz-Stack und Streaming-Infrastruktur sind öffentlich auf GitHub und Hugging Face verfügbar.
Features
| Inferenz-Geschwindigkeit | 25 fps; 5-Frame-Chunks werden in ≤200 ms verarbeitet (Echtzeit-Faktor ≥1,0×); Referenz-Benchmark auf NVIDIA A100 (sm80) |
| Preis-Tier | Kostenlos (AVTR-1 Community License) für Privatpersonen, Forschung und kommerzielle Nutzung bis USD 10 Mio. Jahresumsatz; kommerzielles Lizenzabkommen erforderlich ab USD 10 Mio. ARR |
| Speicher-Anforderung | Eine einzelne NVIDIA A100 GPU pro Session; Voraussetzungen: CUDA 12.x, TensorRT 10.x, Ampere+ GPU (sm80+) |