🤖 DeepSeek-OCR: Görsel Bağlam Sıkıştırmasıyla Token Sayısını Azaltma
🧠 Aşama 1 – Analiz ve Anlama
Ana Teknik Konu: Büyük dil ve görsel-dil modellerinde uzun belgelerin yüksek hesaplama maliyetini azaltmak için optik bağlam sıkıştırması.
Çözülen Problem: Uzun dokümanlarda artan token sayısı bellek tüketimini, işlem süresini ve maliyeti yükseltir. DeepSeek-OCR bunu görsel tokenlarla minimize eder.
Kullanıcının İzlediği Adımlar:
- DeepEncoder ile belge sayfalarını görsel tokenlara dönüştürmek.
- DeepSeek-3B-MoE çözümleyicisiyle bu tokenlardan metni yeniden oluşturmak.
- Performansı OmniDocBench ve Fox gibi kıyaslamalarda test etmek.
Kısa Teknik Özet: DeepSeek-OCR, sayfa görüntülerini az sayıda görsel tokena sıkıştırarak metin tabanlı temsilin 7–20 kat altında token sayısıyla ≈ %97 doğrulukta OCR sağlar.
💡 Bu Rehberde Ne Öğreneceksiniz
Bu yazıda DeepSeek-OCR’nin mimarisini, nasıl eğitim aldığını ve hangi senaryolarda geleneksel OCR sistemlerine göre daha verimli çalıştığını öğreneceksiniz.
⚙️ Mimari Genel Bakış
🔸 DeepEncoder – Görsel Tokenizasyon
Yüksek çözünürlüklü sayfa görüntülerini minimum bellek kullanımıyla işler.
- Yerel Dikkat (SAM – Segment Anything Model, 80 M parametre): Sayfa düzeni ve ince detayları yakalar.
- Küresel Dikkat (CLIP – Contrastive Language–Image Pretraining, 300 M parametre): Görsel tokenlardan anlamsal özellikleri çıkarır.
🔸 DeepSeek-3B-MoE-A570M – Çözücü
3 milyar parametreli karışık-uzman (MoE) mimarisiyle çalışır; çıkarımda yalnızca ≈ 570 M parametre aktif olur. Bu sayede büyük modellere benzer doğrulukta çok daha hızlı sonuç üretir.
🧩 Eğitim Verisi
- 30 milyondan fazla PDF sayfası, 100+ dil.
- 10 M grafik, 5 M kimyasal formül, 1 M geometrik şekil içeren OCR 2.0 verisi. Bu sayede model metin dışı öğeleri (tablolar, formüller, şemalar) de doğru yorumlayabilir.
📊 Performans ve Kıyaslamalar
| Sıkıştırma Oranı | OCR Doğruluğu | Kullanım Durumu |
|---|---|---|
| < 10× | ≈ %97 | Eğitim verisi oluşturma ve üretim işlemleri |
| 20× | ≈ %60 | Arşivleme ve ikincil kullanım |
OmniDocBench: 100 token / sayfa ile GOT-OCR 2.0’ı geçer. MinerU 2.0: < 800 token / sayfa ile > 6000 token kullanan rakiplerinden iyi performans gösterir.
🧠 Uygulama Alanları
- Büyük ölçekli doküman dijitalleştirme (arsivler, hukuk, kütüphaneler)
- LLM eğitim verisi oluşturma (işaretlenmiş görsel-metin çiftleri)
- Yapılandırılmış veri çıkarımı (tablosal veya bilimsel belgeler)
- Çok dilli belge işleme (100+ dil desteği)
💻 Hızlı Kurulum Örneği
from transformers import AutoModel, AutoTokenizer
import torch
from PIL import Image
model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation="flash_attention_2",
trust_remote_code=True,
use_safetensors=True
).eval().cuda().to(torch.bfloat16)
image = Image.open("document.png").convert("RGB")
prompt = "<image>\nFree OCR."
inputs = tokenizer(prompt, images=[image], return_tensors="pt").to("cuda")
output = model.generate(**inputs)
print(tokenizer.decode(output[0]))
Bu örnek belge görselinden metin çıkarır ve sıkıştırılmış tokenlarla OCR işlemi yapar.
⚙️ Çözünürlük Modları
| Mod | Çözünürlük | Görsel Token | Kullanım Alanı |
|---|---|---|---|
| Tiny | 512×512 | 64 | Hızlı ön izleme |
| Small | 640×640 | 100 | Standart doküman |
| Base | 1024×1024 | 256 | Yüksek çözünürlük |
| Large | 1280×1280 | 400 | Karmaşık sayfa düzeni |
| Gundam | Dinamik | 795+ | Çok sütunlu yoğun sayfalar |
⚠️ Sınırlamalar ve Dikkat Edilmesi Gerekenler
- 10× üzeri sıkıştırmalarda doğruluk azalır.
- Karmaşık gazete düzenlerinde manuel kontrol gerekebilir.
- CUDA destekli NVIDIA GPU gereklidir.
❓ Sıkça Sorulan Sorular
DeepSeek-OCR nedir?
Görsel-dil modeli temelli açık kaynaklı OCR sistemidir; görsel tokenizasyonla hesaplama maliyetini 7-20 kat azaltır.
Nasıl yüksek verimlilik sağlar?
Tüm sayfayı metin tokenlarına bölmek yerine görsel bilgiyi az sayıda tokena sıkıştırır.
Eğitim verisi hangi dilleri kapsar?
100’den fazla dil (özellikle Çince ve İngilizce) ve çeşitli belge tipleri üzerinde eğitilmiştir.
Kullanım alanları nelerdir?
Büyük ölçekli dijitalleştirme, LLM eğitim verisi oluşturma, finansal ve bilimsel belge analizi.
🏁 Sonuç
DeepSeek-OCR, optik bağlam sıkıştırmasıyla belge işlemeyi yeniden tanımlıyor. 7–20 kat daha az tokenla yüksek doğruluk sağlayarak AI eğitim verisi üretimi ve arşivleme süreçlerinde yeni bir standart oluşturuyor. 💡 Modeli Rabisu Bulut GPU sunucularında test ederek yüksek performanslı OCR deneyimini hemen yaşayabilirsiniz!