Görsel Dil Modelleri (VLM ‘ler), hem görsel hem de metinsel bilgiyi aynı anda işleyebilen güçlü makine öğrenimi modelleridir. Yalnızca metin kabul eden geleneksel Büyük Dil Modellerinin (LLM’ler) aksine, VLM ‘ler görüntüleri ve metni birlikte girdi olarak alabilir, ardından metin çıktısı ile yanıt verebilir.
Önemli Nokta: VLM ‘ler, metnin anlamı görsel konumuna bağlı olduğunda gereklidir. Bu, onları düzen, biçimlendirme ve görsel öğelerin semantik bilgi taşıdığı doküman anlama görevleri için vazgeçilmez kılar.
Geleneksel OCR Neden Yetersiz Kalır?
VLM ‘lere alternatif, metin çıkarmak için Optik Karakter Tanıma (OCR) kullanmak, ardından bu metni bir LLM ‘ye beslemektir. Ancak, bu yaklaşımın önemli sınırlamaları vardır:
- Kusurlu metin çıkarma: OCR motorları mükemmel değildir ve küçük metin, eğik görüntüler veya dikey metinle zorlanabilir
- Görsel konumun kaybı: Metnin diğer öğelere göre nerede konumlandığı hakkındaki bilgiyi kaybedersiniz
- Metin olmayan bilgilerin eksikliği: Geleneksel OCR sembolleri, çizimleri veya görsel yapıları yorumlayamaz
Temel Uygulama Alanları
VLM ‘ler çeşitli doküman anlama görevlerinde mükemmeldir:
- Soru Yanıtlama: VLM ‘ye bir doküman görüntüsü ve bir soru verin, yanıt alın
- Sınıflandırma: Dokümanları önceden belirlenmiş sınıflara kategorize edin
- Bilgi Çıkarma: JSON gibi yapılandırılmış formatlarda belirli veri noktalarını çıkarın
- OCR: Biçimlendirme ve bağlam ile gelişmiş metin çıkarma gerçekleştirin
VLM ‘leri Uzun Dokümanlara Uygulama
Uzun Doküman Zorluğu
Uzun dokümanları (100+ sayfa) veya detaylı çizimlerle çok yoğun dokümanları işlemek önemli zorluklar sunar. VLM ‘ler görsel bilgiyi temsil etmek için birçok token’a ihtiyaç duyar – tipik olarak yalnızca metin kullanan LLM ‘lerden yaklaşık 10 kat daha fazla girdi oluşmasına neden olur.
Uyarı: VLM ‘ler, geleneksel LLM ‘ler gibi bağlam pencereleri ile sınırlıdır. Yüzlerce sayfayı işlemek dikkatli strateji gerektirir.
VLM ‘leri Kullanarak OCR
Güçlü bir yaklaşım, VLM ‘leri gelişmiş OCR gerçekleştirmek için kullanmak, ardından geleneksel LLM’ler tarafından işlenebilecek metin çıkarmaktır. Bu, her iki teknolojiniyi kullanarak en iyi çıktı almamızı sağlar:
Markdown Çıkarma
VLM ‘ler düz metin yerine biçimlendirilmiş Markdown çıkarabilir:
- Doküman yapısı için başlıklar ve alt başlıklar sağlar
- Tabloları doğru şekilde temsil eder
- Kalın ve italik metin gibi biçimlendirmeyi korur
Önemli Nokta: LLM ‘ler, geleneksel OCR kullanılarak çıkarılan düz metne göre Markdown gibi biçimlendirilmiş metin üzerinde önemli ölçüde daha iyi performans gösterir.
Model Seçimi
HuggingFace VLM lider tablosuna göre:
- Kapalı kaynak: Gemini 2.5 Pro ve GPT-4o, API’ler aracılığıyla mükemmel performans sunar
- Açık kaynak: SenseNova 6.5 ve Qwen 3 VL, daha fazla kontrol ile güçlü performans sağlar
VLM İşleme Gücü Değerlendirmeleri
Açık kaynak modelleri çalıştırırken şunları göz önünde bulundurun:
- Donanım gereksinimleri: Tipik olarak en az bir A100 GPU gerekir (saat başına 1.5-2$ maliyetli)
- Gecikme toleransı: Canlı sohbet hızlı işleme gerektirir; toplu işleme gecikmeleri tolere edebilir
- Görüntü çözünürlüğü: Metin okuma için daha yüksek çözünürlük (2048×2048+) gereklidir ancak işleme süresini artırır
- Sayfa sayısı: Daha fazla sayfa işleme süresini doğrusal olarak artırır
Hiyerarşik İşleme
İşleme gereksinimlerini azaltmak için basit başlayın ve yalnızca gerekirse daha ağır işlemeye ilerleyin:
- İlk 10 sayfa ile daha düşük çözünürlükte başlayın
- Gerekli bilgi bulunamazsa, daha fazla sayfa işleyin
- Metin okunamazsa, çözünürlüğü artırın
Bu, çoğu görev minimum işleme ile çözülebildiği için ortalama işleme maliyetlerini önemli ölçüde azaltır.
VLM Maliyet Değerlendirmeleri
Maliyet, VLM’leri ölçekte kullanırken kritiktir. Temel içgörüler:
- VLM’ler tipik olarak metin tabanlı LLM’lerden 10 kat daha fazla girdi token’ı gerektirir
- Girdi token’ları genellikle uzun dokümanlar için ana maliyet faktörüdür
- Önbelleğe alınmış token kullanımını maksimize etmek esastır
OCR görevleri için özellikle, VLM görüntülerdeki tüm metni çıkardığı için çıktı token’larının yüksek olabileceğini unutmayın.
Karmaşık Dokümanlardan Metadata Çıkarma
Neden Metadata Çıkarılır?
Dokümanlar, içeriklerinde gömülü çok miktarda önemli bilgi içerir. Metadata’yı önceden çıkarmak şu gibi alt akış görevlerini basitleştirir:
- Dokümanları türe, tarihe, adrese vb. göre filtreleme
- RAG (Retrieval Augmented Generation) kalitesini iyileştirme
- Önceden çıkarılmış veri sağlayarak çıkarım maliyetlerini azaltma
Önemli Nokta: RAG bilgi bulabilirken, önceden çıkarılmış metadata yapılandırılmış sorgular için daha güvenilir, daha hızlı ve daha ucuzdur.
Metadata Çıkarma için Üç Yaklaşım
Yaklaşım 1: Regex
En basit yaklaşım, kesin formatı önceden bildiğinizde çalışır. Örneğin, tarihler her zaman “Tarih: ” ifadesinden hemen sonra gg.aa.yyyy olarak görünüyorsa, regex idealdir.
Ne yazık ki, çoğu gerçek dünya senaryosu şu gibi zorluklarla tutarsız dokümanlar içerir:
- Veriler farklı konumlarda görünür
- OCR kalitesi değişir, karakterler eksik
- Birden fazla tarih formatı (aa.gg.yyyy, “22 Ekim”, “22 Aralık” vb.)
Yaklaşım 2: OCR + LLM
Güçlü bir orta yol yaklaşımı:
- Doküman metnini çıkarmak için OCR uygulayın
- Belirli metadata’yı çıkarmak için bir LLM’ye prompt verin
Bu inanılmaz derecede iyi çalışır çünkü LLM’ler şunları yapabilir:
- Bağlamı anlama (hangi tarihlerin alakalı veya alakasız olduğu)
- Farklı tarih formatlarını otomatik olarak ayrıştırma
- Hem Avrupa (gg.aa.yyyy) hem de Amerikan (aa.gg.yyyy) standartlarını işleme
OCR + LLM metadata çıkarma işlem hattı şu şekilde çalışır: Bir doküman önce metin çıkarmak için OCR ile işlenir, ardından yapılandırılmış metadata çıkarmak için bir prompt ile birleştirilerek bir LLM’ye beslenir. Bu yaklaşım, görüntüleri doğrudan işlemenin daha yüksek token maliyetlerinden kaçınırken LLM’nin bağlamsal anlayışından yararlanarak maliyet ve yetenek arasında denge kurar.
Yaklaşım 3: Görsel LLM’ler
En güçlü ancak pahalı yaklaşım. Metadata, OCR’nin yakalayamadığı görsel bilgilere bağlı olduğunda gereklidir.
Örnek kullanım durumu: Hangi onay kutularının doldurulduğunu çıkarma
OCR “Doküman 1, Doküman 2, Doküman 3” metnini çıkaracak ancak hangi onay kutularının doldurulduğunu tamamen kaçıracaktır. Görsel LLM’ler, görsel bilgiyi doğrudan yorumlayarak bu görevi kolayca çözebilir.
Uyarı: Görsel LLM’ler, yüksek çözünürlüklü görüntü gereksinimleri ve ortaya çıkan token sayıları nedeniyle tipik olarak saf metin LLM’lerinden önemli ölçüde daha pahalıdır.
Metadata Çıkarmadaki Zorluklar
3.3.1 Doğru Yaklaşımı Seçme
İdeal olarak, her şey için Görsel LLM’leri kullanın, ancak maliyet bunu pratik dışı kılar.
- OCR + LLM için kullanın: Tarihler, isimler, adresler, standart metin alanları
- Görsel LLM’ler için kullanın: Onay kutuları, imzalar, görsel düzenler, el yazısı metin
El Yazısı Metnin İşlenmesi
Geleneksel OCR el yazısı ile zorlanır. Dokümanlar el yazısı içerik içeriyorsa, el yazısını önemli ölçüde daha iyi işledikleri için Görsel LLM’ler güçlü bir şekilde önerilir.
Birçok dokümanın hem basılı hem de el yazısı metin içerdiğini, hibrit yaklaşımlar gerektirdiğini unutmayın.

