Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
deepseek

DeepSeek-OCR

#22 in Transkription (STT)

deepseek · seit 2025-10-20 · 2× · zuletzt 30. Juni 2026

3
Momentum

DeepSeek-OCR ist ein quelloffenes Vision-Language-Modell von DeepSeek AI, das am 20. Oktober 2025 veröffentlicht wurde. Es nutzt das Konzept der „Contexts Optical Compression" (COC), bei dem Dokumentseiten visuell in wenige Vision-Tokens komprimiert werden, anstatt sie in lange Text-Token-Sequenzen umzuwandeln. Die Architektur besteht aus dem DeepEncoder (380 M Parameter, kombiniert SAM-Base und CLIP-Large mit einem 16× Convolutional Compressor) sowie dem DeepSeek-3B-MoE-Decoder (3 Mrd. Gesamtparameter, davon ~570 Mio. aktiv pro Token). Mit vLLM-Inferenz werden auf einer einzelnen NVIDIA A100-40G etwa 2.500 Tokens/Sekunde und bis zu 200.000 Seiten/Tag erreicht; die Modellgewichte (ca. 6,7 GB BF16) stehen unter MIT-Lizenz kostenlos zur Verfügung.

Momentum-Verlauf
04.04.03.07.

Features

Latenz (ms)100–400 ms pro Seite auf A100-GPU (einfache Dokumente ca. 100 ms, komplexe Dokumente mit Tabellen/Diagrammen ca. 400 ms)
Modellgröße (Parameterzahl)3 Mrd. Gesamtparameter (DeepSeek-3B-MoE-Decoder: 3 B total, ~570 M aktiv pro Token; DeepEncoder: ~380 M Parameter); Gewichtsdatei ca. 6,7 GB BF16
Preis-TierOpen Source / kostenlos: MIT-lizenzierte Gewichte, kostenloses Self-Hosting ohne API-Gebühren. Drittanbieter-API (z. B. DeepInfra): $0,03/Mio. Input-Token und $0,10/Mio. Output-Token.
Sprachenunterstützung (Anzahl)100+ Sprachen (trainiert auf über 30 Mio. PDF-Seiten in 100+ Sprachen, inkl. Latein, CJK, Kyrillisch und wissenschaftliche Schriften)
Verarbeitungsgeschwindigkeit (x Realtime)~2.500 Tokens/Sekunde für PDF-Verarbeitung auf einer NVIDIA A100-40G (via vLLM); entspricht >200.000 Seiten/Tag auf einer A100
Word Error Rate (%)~3 % (96 %+ OCR-Dekodiergenauigkeit bei 9–10× Kompression auf dem Fox-Benchmark; ~97 % Präzision bei <10× Kompression laut arXiv-Paper und DigitalOcean-Doku; ~60 % Genauigkeit bei 20× Kompression)

Belege (2)

Weitere Produkte in dieser Kategorie: Transkription (STT)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.