Skip to main content

🤖 DeepSeek-OCR: Görsel Bağlam Sıkıştırmasıyla Token Sayısını Azaltma


🧠 Aşama 1 – Analiz ve Anlama

Ana Teknik Konu: Büyük dil ve görsel-dil modellerinde uzun belgelerin yüksek hesaplama maliyetini azaltmak için optik bağlam sıkıştırması.

Çözülen Problem: Uzun dokümanlarda artan token sayısı bellek tüketimini, işlem süresini ve maliyeti yükseltir. DeepSeek-OCR bunu görsel tokenlarla minimize eder.

Kullanıcının İzlediği Adımlar:

  1. DeepEncoder ile belge sayfalarını görsel tokenlara dönüştürmek.
  2. DeepSeek-3B-MoE çözümleyicisiyle bu tokenlardan metni yeniden oluşturmak.
  3. Performansı OmniDocBench ve Fox gibi kıyaslamalarda test etmek.

Kısa Teknik Özet: DeepSeek-OCR, sayfa görüntülerini az sayıda görsel tokena sıkıştırarak metin tabanlı temsilin 7–20 kat altında token sayısıyla ≈ %97 doğrulukta OCR sağlar.


💡 Bu Rehberde Ne Öğreneceksiniz

Bu yazıda DeepSeek-OCR’nin mimarisini, nasıl eğitim aldığını ve hangi senaryolarda geleneksel OCR sistemlerine göre daha verimli çalıştığını öğreneceksiniz.


⚙️ Mimari Genel Bakış

🔸 DeepEncoder – Görsel Tokenizasyon

Yüksek çözünürlüklü sayfa görüntülerini minimum bellek kullanımıyla işler.

  • Yerel Dikkat (SAM – Segment Anything Model, 80 M parametre): Sayfa düzeni ve ince detayları yakalar.
  • Küresel Dikkat (CLIP – Contrastive Language–Image Pretraining, 300 M parametre): Görsel tokenlardan anlamsal özellikleri çıkarır.

🔸 DeepSeek-3B-MoE-A570M – Çözücü

3 milyar parametreli karışık-uzman (MoE) mimarisiyle çalışır; çıkarımda yalnızca ≈ 570 M parametre aktif olur. Bu sayede büyük modellere benzer doğrulukta çok daha hızlı sonuç üretir.


🧩 Eğitim Verisi

  • 30 milyondan fazla PDF sayfası, 100+ dil.
  • 10 M grafik, 5 M kimyasal formül, 1 M geometrik şekil içeren OCR 2.0 verisi. Bu sayede model metin dışı öğeleri (tablolar, formüller, şemalar) de doğru yorumlayabilir.

📊 Performans ve Kıyaslamalar

Sıkıştırma OranıOCR DoğruluğuKullanım Durumu
< 10×≈ %97Eğitim verisi oluşturma ve üretim işlemleri
20×≈ %60Arşivleme ve ikincil kullanım

OmniDocBench: 100 token / sayfa ile GOT-OCR 2.0’ı geçer. MinerU 2.0: < 800 token / sayfa ile > 6000 token kullanan rakiplerinden iyi performans gösterir.


🧠 Uygulama Alanları

  • Büyük ölçekli doküman dijitalleştirme (arsivler, hukuk, kütüphaneler)
  • LLM eğitim verisi oluşturma (işaretlenmiş görsel-metin çiftleri)
  • Yapılandırılmış veri çıkarımı (tablosal veya bilimsel belgeler)
  • Çok dilli belge işleme (100+ dil desteği)

💻 Hızlı Kurulum Örneği

from transformers import AutoModel, AutoTokenizer
import torch
from PIL import Image

model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation="flash_attention_2",
trust_remote_code=True,
use_safetensors=True
).eval().cuda().to(torch.bfloat16)

image = Image.open("document.png").convert("RGB")
prompt = "<image>\nFree OCR."
inputs = tokenizer(prompt, images=[image], return_tensors="pt").to("cuda")
output = model.generate(**inputs)
print(tokenizer.decode(output[0]))

Bu örnek belge görselinden metin çıkarır ve sıkıştırılmış tokenlarla OCR işlemi yapar.


⚙️ Çözünürlük Modları

ModÇözünürlükGörsel TokenKullanım Alanı
Tiny512×51264Hızlı ön izleme
Small640×640100Standart doküman
Base1024×1024256Yüksek çözünürlük
Large1280×1280400Karmaşık sayfa düzeni
GundamDinamik795+Çok sütunlu yoğun sayfalar

⚠️ Sınırlamalar ve Dikkat Edilmesi Gerekenler

  • 10× üzeri sıkıştırmalarda doğruluk azalır.
  • Karmaşık gazete düzenlerinde manuel kontrol gerekebilir.
  • CUDA destekli NVIDIA GPU gereklidir.

❓ Sıkça Sorulan Sorular

DeepSeek-OCR nedir?

Görsel-dil modeli temelli açık kaynaklı OCR sistemidir; görsel tokenizasyonla hesaplama maliyetini 7-20 kat azaltır.

Nasıl yüksek verimlilik sağlar?

Tüm sayfayı metin tokenlarına bölmek yerine görsel bilgiyi az sayıda tokena sıkıştırır.

Eğitim verisi hangi dilleri kapsar?

100’den fazla dil (özellikle Çince ve İngilizce) ve çeşitli belge tipleri üzerinde eğitilmiştir.

Kullanım alanları nelerdir?

Büyük ölçekli dijitalleştirme, LLM eğitim verisi oluşturma, finansal ve bilimsel belge analizi.


🏁 Sonuç

DeepSeek-OCR, optik bağlam sıkıştırmasıyla belge işlemeyi yeniden tanımlıyor. 7–20 kat daha az tokenla yüksek doğruluk sağlayarak AI eğitim verisi üretimi ve arşivleme süreçlerinde yeni bir standart oluşturuyor. 💡 Modeli Rabisu Bulut GPU sunucularında test ederek yüksek performanslı OCR deneyimini hemen yaşayabilirsiniz!