Görsel Dil Modelleri VLM Nedir? VLM’ler Nasıl Kullanılır?

Okuma süresi: 6dk, 29sn

Görsel Dil Modelleri (VLM ‘ler), hem görsel hem de metinsel bilgiyi aynı anda işleyebilen güçlü makine öğrenimi modelleridir. Yalnızca metin kabul eden geleneksel Büyük Dil Modellerinin (LLM’ler) aksine, VLM ‘ler görüntüleri ve metni birlikte girdi olarak alabilir, ardından metin çıktısı ile yanıt verebilir.

Önemli Nokta: VLM ‘ler, metnin anlamı görsel konumuna bağlı olduğunda gereklidir. Bu, onları düzen, biçimlendirme ve görsel öğelerin semantik bilgi taşıdığı doküman anlama görevleri için vazgeçilmez kılar.

Geleneksel OCR Neden Yetersiz Kalır?

VLM ‘lere alternatif, metin çıkarmak için Optik Karakter Tanıma (OCR) kullanmak, ardından bu metni bir LLM ‘ye beslemektir. Ancak, bu yaklaşımın önemli sınırlamaları vardır:

Kusurlu metin çıkarma: OCR motorları mükemmel değildir ve küçük metin, eğik görüntüler veya dikey metinle zorlanabilir
Görsel konumun kaybı: Metnin diğer öğelere göre nerede konumlandığı hakkındaki bilgiyi kaybedersiniz
Metin olmayan bilgilerin eksikliği: Geleneksel OCR sembolleri, çizimleri veya görsel yapıları yorumlayamaz

Temel Uygulama Alanları

VLM ‘ler çeşitli doküman anlama görevlerinde mükemmeldir:

Soru Yanıtlama: VLM ‘ye bir doküman görüntüsü ve bir soru verin, yanıt alın
Sınıflandırma: Dokümanları önceden belirlenmiş sınıflara kategorize edin
Bilgi Çıkarma: JSON gibi yapılandırılmış formatlarda belirli veri noktalarını çıkarın
OCR: Biçimlendirme ve bağlam ile gelişmiş metin çıkarma gerçekleştirin

VLM ‘leri Uzun Dokümanlara Uygulama

Uzun Doküman Zorluğu

Uzun dokümanları (100+ sayfa) veya detaylı çizimlerle çok yoğun dokümanları işlemek önemli zorluklar sunar. VLM ‘ler görsel bilgiyi temsil etmek için birçok token’a ihtiyaç duyar – tipik olarak yalnızca metin kullanan LLM ‘lerden yaklaşık 10 kat daha fazla girdi oluşmasına neden olur.

Uyarı: VLM ‘ler, geleneksel LLM ‘ler gibi bağlam pencereleri ile sınırlıdır. Yüzlerce sayfayı işlemek dikkatli strateji gerektirir.

VLM ‘leri Kullanarak OCR

Güçlü bir yaklaşım, VLM ‘leri gelişmiş OCR gerçekleştirmek için kullanmak, ardından geleneksel LLM’ler tarafından işlenebilecek metin çıkarmaktır. Bu, her iki teknolojiniyi kullanarak en iyi çıktı almamızı sağlar:

Markdown Çıkarma

VLM ‘ler düz metin yerine biçimlendirilmiş Markdown çıkarabilir:

Doküman yapısı için başlıklar ve alt başlıklar sağlar
Tabloları doğru şekilde temsil eder
Kalın ve italik metin gibi biçimlendirmeyi korur

Önemli Nokta: LLM ‘ler, geleneksel OCR kullanılarak çıkarılan düz metne göre Markdown gibi biçimlendirilmiş metin üzerinde önemli ölçüde daha iyi performans gösterir.

Model Seçimi

HuggingFace VLM lider tablosuna göre:

Kapalı kaynak: Gemini 2.5 Pro ve GPT-4o, API’ler aracılığıyla mükemmel performans sunar
Açık kaynak: SenseNova 6.5 ve Qwen 3 VL, daha fazla kontrol ile güçlü performans sağlar

VLM İşleme Gücü Değerlendirmeleri

Açık kaynak modelleri çalıştırırken şunları göz önünde bulundurun:

Donanım gereksinimleri: Tipik olarak en az bir A100 GPU gerekir (saat başına 1.5-2$ maliyetli)
Gecikme toleransı: Canlı sohbet hızlı işleme gerektirir; toplu işleme gecikmeleri tolere edebilir
Görüntü çözünürlüğü: Metin okuma için daha yüksek çözünürlük (2048×2048+) gereklidir ancak işleme süresini artırır
Sayfa sayısı: Daha fazla sayfa işleme süresini doğrusal olarak artırır

Hiyerarşik İşleme

İşleme gereksinimlerini azaltmak için basit başlayın ve yalnızca gerekirse daha ağır işlemeye ilerleyin:

İlk 10 sayfa ile daha düşük çözünürlükte başlayın
Gerekli bilgi bulunamazsa, daha fazla sayfa işleyin
Metin okunamazsa, çözünürlüğü artırın

Bu, çoğu görev minimum işleme ile çözülebildiği için ortalama işleme maliyetlerini önemli ölçüde azaltır.

VLM Maliyet Değerlendirmeleri

Maliyet, VLM’leri ölçekte kullanırken kritiktir. Temel içgörüler:

VLM’ler tipik olarak metin tabanlı LLM’lerden 10 kat daha fazla girdi token’ı gerektirir
Girdi token’ları genellikle uzun dokümanlar için ana maliyet faktörüdür
Önbelleğe alınmış token kullanımını maksimize etmek esastır

OCR görevleri için özellikle, VLM görüntülerdeki tüm metni çıkardığı için çıktı token’larının yüksek olabileceğini unutmayın.

Karmaşık Dokümanlardan Metadata Çıkarma

Neden Metadata Çıkarılır?

Dokümanlar, içeriklerinde gömülü çok miktarda önemli bilgi içerir. Metadata’yı önceden çıkarmak şu gibi alt akış görevlerini basitleştirir:

Dokümanları türe, tarihe, adrese vb. göre filtreleme
RAG (Retrieval Augmented Generation) kalitesini iyileştirme
Önceden çıkarılmış veri sağlayarak çıkarım maliyetlerini azaltma

Önemli Nokta: RAG bilgi bulabilirken, önceden çıkarılmış metadata yapılandırılmış sorgular için daha güvenilir, daha hızlı ve daha ucuzdur.

Metadata Çıkarma için Üç Yaklaşım

Yaklaşım 1: Regex

En basit yaklaşım, kesin formatı önceden bildiğinizde çalışır. Örneğin, tarihler her zaman “Tarih: ” ifadesinden hemen sonra gg.aa.yyyy olarak görünüyorsa, regex idealdir.

Ne yazık ki, çoğu gerçek dünya senaryosu şu gibi zorluklarla tutarsız dokümanlar içerir:

Veriler farklı konumlarda görünür
OCR kalitesi değişir, karakterler eksik
Birden fazla tarih formatı (aa.gg.yyyy, “22 Ekim”, “22 Aralık” vb.)

Yaklaşım 2: OCR + LLM

Güçlü bir orta yol yaklaşımı:

Doküman metnini çıkarmak için OCR uygulayın
Belirli metadata’yı çıkarmak için bir LLM’ye prompt verin

Bu inanılmaz derecede iyi çalışır çünkü LLM’ler şunları yapabilir:

Bağlamı anlama (hangi tarihlerin alakalı veya alakasız olduğu)
Farklı tarih formatlarını otomatik olarak ayrıştırma
Hem Avrupa (gg.aa.yyyy) hem de Amerikan (aa.gg.yyyy) standartlarını işleme

OCR + LLM metadata çıkarma işlem hattı şu şekilde çalışır: Bir doküman önce metin çıkarmak için OCR ile işlenir, ardından yapılandırılmış metadata çıkarmak için bir prompt ile birleştirilerek bir LLM’ye beslenir. Bu yaklaşım, görüntüleri doğrudan işlemenin daha yüksek token maliyetlerinden kaçınırken LLM’nin bağlamsal anlayışından yararlanarak maliyet ve yetenek arasında denge kurar.

Yaklaşım 3: Görsel LLM’ler

En güçlü ancak pahalı yaklaşım. Metadata, OCR’nin yakalayamadığı görsel bilgilere bağlı olduğunda gereklidir.

Örnek kullanım durumu: Hangi onay kutularının doldurulduğunu çıkarma

OCR “Doküman 1, Doküman 2, Doküman 3” metnini çıkaracak ancak hangi onay kutularının doldurulduğunu tamamen kaçıracaktır. Görsel LLM’ler, görsel bilgiyi doğrudan yorumlayarak bu görevi kolayca çözebilir.

Uyarı: Görsel LLM’ler, yüksek çözünürlüklü görüntü gereksinimleri ve ortaya çıkan token sayıları nedeniyle tipik olarak saf metin LLM’lerinden önemli ölçüde daha pahalıdır.

Metadata Çıkarmadaki Zorluklar

3.3.1 Doğru Yaklaşımı Seçme

İdeal olarak, her şey için Görsel LLM’leri kullanın, ancak maliyet bunu pratik dışı kılar.

OCR + LLM için kullanın: Tarihler, isimler, adresler, standart metin alanları
Görsel LLM’ler için kullanın: Onay kutuları, imzalar, görsel düzenler, el yazısı metin

El Yazısı Metnin İşlenmesi

Geleneksel OCR el yazısı ile zorlanır. Dokümanlar el yazısı içerik içeriyorsa, el yazısını önemli ölçüde daha iyi işledikleri için Görsel LLM’ler güçlü bir şekilde önerilir.

Birçok dokümanın hem basılı hem de el yazısı metin içerdiğini, hibrit yaklaşımlar gerektirdiğini unutmayın.

EtiketlerMarkdown Metadata OCR RAG Regex retrieval augmented generation vlm