Kapsamlı Büyük Ölçekli LLM Doğrulama Nasıl Yapılır

Okuma süresi: 8dk, 2sn

LLM Uygulamalarında Ölçeklenebilirlik Sorunu

Şu senaryoyu hayal edin: Elinizde 1000 kereden 999’unda doğru yanıt veren bir LLM sorgunuz var. Ancak veri tabanını doldurmak için 1,5 milyon öğe üzerinde toplu işlem (backfilling) yapmanız gerekiyor. Bu çok gerçekçi senaryoda, sadece bu LLM istemi için bile 1500 hata yaşayacaksınız. Bu durumu 10’larca hatta 100’lerce farklı istem ile çarpın, karşınızda gerçek bir ölçeklenebilirlik sorunu beliriyor.

Çözüm, LLM çıktınızı doğrulamak ve değerlendirmeler kullanarak yüksek performans sağlamaktır. Bu makalede her iki konuyu da detaylıca ele alacağım.

LLM Doğrulama ve Değerlendirme Nedir?

LLM doğrulama ve değerlendirmenin ne olduğunu ve uygulamanız için neden önemli olduğunu tanımlayarak başlamak önemli.

LLM doğrulama, çıktılarınızın kalitesini doğrulamakla ilgilidir. Bunun yaygın bir örneği, LLM yanıtının kullanıcının sorusunu yanıtlayıp yanıtlamadığını kontrol eden kod parçacığı çalıştırmaktır. Doğrulama önemlidir çünkü yüksek kaliteli yanıtlar sağladığınızı ve LLM’nizin beklendiği gibi performans gösterdiğini garanti eder. Doğrulama, bireysel yanıtlar üzerinde gerçek zamanlı olarak yaptığınız bir işlem olarak görülebilir.

LLM değerlendirme benzerdir; ancak genellikle gerçek zamanlı olarak gerçekleşmez. LLM çıktınızı değerlendirmek, örneğin son 30 gündeki tüm kullanıcı sorgularına bakarak LLM’nizin ne kadar iyi performans gösterdiğini nicel olarak değerlendirmeyi içerebilir.

LLM Performansını Neden Doğrulamalı ve Değerlendirmeliyiz?

LLM çıktısıyla ilgili sorunlar yaşayacaksınız çünkü:

Girdi verilerinde sorunlar (eksik veriler)
İsteminizin ele almaya hazır olmadığı uç durumlar
Dağılım dışı veriler
Ve daha fazlası

Bu nedenle LLM çıktı sorunlarını ele almak için sağlam bir çözüme ihtiyacınız var. Bunları mümkün olduğunca sık önlemeniz ve kalan durumlarda ele almanız gerekir.

Murphy Yasası’nın LLM Uyarlaması: Büyük ölçekte, yanlış gidebilecek her şey yanlış gidecektir.

Nitel vs Nicel Değerlendirmeler

LLM’lerle çalışırken, farklı istemler için LLM performansını manuel olarak değerlendirmek genellikle cazip gelir. Ancak bu tür manuel (nitel) değerlendirmeler oldukça önyargılıdır. Örneğin, dikkatinizin çoğunu LLM’nin başarılı olduğu durumlarına odaklayabilir ve böylece LLM’nizin performansını olduğundan fazla değerlendirebilirsiniz.

Büyük Ölçekli LLM Çıktı Doğrulama

Milyonlarca LLM çağrısı çalıştırdıktan sonra, GPT-4o’nun “…” döndürdüğü veya Qwen2.5’in beklenmeyen Çince karakterlerle yanıt verdiği gibi birçok farklı çıktı gördüm.

Bu hatalar manuel incelemeyle tespit edilmesi son derece zor çünkü genellikle LLM’ye yapılan 1000 API çağrısından 1’inden azında gerçekleşirler. Ancak büyük ölçekte gerçek zamanlı olarak bu sorunları yakalamak için bir mekanizmaya ihtiyacınız var.

1. Basit If-Else İfadeleri

Doğrulama için en basit çözüm, LLM çıktısını kontrol eden basit if ifadesi kullanan kod parçasına sahip olmaktır. Örneğin, belgeler için özet oluşturmak istiyorsanız, LLM çıktısının en azından minimum bir uzunluğun üzerinde olduğundan emin olmak isteyebilirsiniz:

# LLM özet doğrulama
# İlk olarak OpenAI, Anthropic, Mistral gibi LLM istemcisi aracılığıyla özet oluşturun
summary = llm_client.chat(f"Bu belgenin özetini yap {document}")

# Özeti doğrula
def validate_summary(summary: str) -> bool:
    if len(summary) < 20:
        return False
    return True

# Doğrulama çalıştır
is_valid = validate_summary(summary)

if is_valid:
    # Doğrulama geçerse normal şekilde devam et
    process_summary(summary)
else:
    # Başarısız olursa isteği yok say veya yeniden deneme mekanizması kullan
    retry_summary_generation(document)

Tabii ki validate_summary fonksiyonunu daha kapsamlı hale getirebilirsiniz:

Karmaşık string eşleştirme için regex kullanma
İstekteki token sayısını saymak için Tiktoken gibi kütüphaneler kullanma
Yanıtta belirli kelimelerin bulunduğundan/bulunmadığından emin olma

2. Doğrulayıcı Olarak LLM Kullanma

Daha gelişmiş ve maliyetli bir doğrulayıcı, LLM kullanmaktır. Bu durumlarda, çıktının geçerli olup olmadığını değerlendirmek için başka bir LLM kullanırsınız. Bu işe yarar çünkü doğruluğu doğrulamak genellikle doğru yanıt oluşturmaktan daha basit bir görevdir.

def validate_with_llm(summary: str, original_document: str) -> bool:
    validation_prompt = f"""
    Lütfen aşağıdaki özetin kalitesini değerlendirin:
    
    Orijinal Belge: {original_document}
    Oluşturulan Özet: {summary}
    
    Özet aşağıdaki kriterleri karşılıyor mu?
    1. En az 50 karakter uzunluğunda
    2. Orijinal belgenin ana noktalarını içeriyor
    3. Markdown formatında yazılmış
    4. İçeriği doğru yansıtıyor
    
    Sadece 'GEÇERLI' veya 'GEÇERSİZ' ile yanıt verin.
    """
    
    validation_result = validator_llm.chat(validation_prompt)
    return validation_result.strip() == "GEÇERLI"

# Kullanım
if validate_with_llm(summary, document):
    process_summary(summary)
else:
    retry_summary_generation(document)

LLM doğrulayıcı kullanırken genellikle daha küçük LLM’leri tercih ederim çünkü:

Daha hızlı yanıt süreleri
Daha düşük maliyet
Doğrulama görevi daha basit olduğu için yine de iyi çalışırlar

Nicel LLM Değerlendirmeleri

LLM çıktılarının büyük ölçekli değerlendirmelerini yapmak son derece önemlidir. Bunu sürekli olarak veya düzenli aralıklarla çalıştırmanızı öneriyorum.

1. Hakim Olarak LLM

Doğrulamada olduğu gibi, değerlendirme için de hakim olarak LLM kullanabilirsiniz. Fark, doğrulamanın ikili tahminler için (çıktı geçerli ya da geçersiz) LLM’yi hakim olarak kullanırken, değerlendirmenin daha detaylı geri bildirim için kullanmasıdır.

def evaluate_summary_quality(summary: str, document: str) -> int:
    evaluation_prompt = f"""
    Aşağıdaki özetin kalitesini 1-10 ölçeğinde değerlendirin:
    
    Orijinal Belge: {document}
    Oluşturulan Özet: {summary}
    
    Değerlendirme Kriterleri:
    - 1-3: Çok düşük kalite (yanlış bilgi, çok kısa/uzun)
    - 4-6: Orta kalite (eksik bilgi, format sorunları)
    - 7-8: İyi kalite (doğru ama geliştirilebilir)
    - 9-10: Mükemmel kalite (tam, doğru, iyi formatlanmış)
    
    Sadece sayısal puan verin (1-10):
    """
    
    score = judge_llm.chat(evaluation_prompt)
    return int(score.strip())

# Toplu değerlendirme
def batch_evaluate_summaries(summaries_data):
    total_score = 0
    for data in summaries_data:
        score = evaluate_summary_quality(data['summary'], data['document'])
        total_score += score
        
    average_score = total_score / len(summaries_data)
    return average_score

2. Kullanıcı Geri Bildirimi

Kullanıcı geri bildirimi, LLM çıktılarınız hakkında nicel metrikler almanın harika bir yoludur. Kullanıcı geri bildirimi, örneğin beğeni/beğenmeme düğmesi olabilir.

class FeedbackSystem:
    def __init__(self):
        self.feedback_data = []
    
    def collect_feedback(self, summary_id: str, user_rating: int, user_comment: str = ""):
        feedback = {
            'summary_id': summary_id,
            'rating': user_rating,  # 1-5 yıldız sistemi
            'comment': user_comment,
            'timestamp': datetime.now()
        }
        self.feedback_data.append(feedback)
    
    def calculate_average_rating(self, time_period_days: int = 30):
        recent_feedback = [
            f for f in self.feedback_data 
            if (datetime.now() - f['timestamp']).days <= time_period_days
        ]
        
        if not recent_feedback:
            return 0
            
        total_rating = sum(f['rating'] for f in recent_feedback)
        return total_rating / len(recent_feedback)
    
    def get_performance_metrics(self):
        if not self.feedback_data:
            return {'average_rating': 0, 'total_feedback': 0}
            
        ratings = [f['rating'] for f in self.feedback_data]
        return {
            'average_rating': sum(ratings) / len(ratings),
            'total_feedback': len(self.feedback_data),
            'rating_distribution': {i: ratings.count(i) for i in range(1, 6)}
        }

Maliyet Optimizasyonu Stratejileri

Hakim olarak LLM kullanırken maliyetleri göz önünde bulundurmanız gerekir:

Veri Örnekleme: Sadece veri noktalarının bir alt kümesinde LLM hakimini çalıştırın
Gruplama: Giriş ve çıkış tokenlerinde tasarruf için birkaç veri noktasını tek bir LLM hakim istemine gruplandırın

def batch_evaluate_with_sampling(summaries_data, sample_rate=0.1):
    """
    Maliyet tasarrufu için örnekleme ile toplu değerlendirme
    """
    import random
    
    # Rastgele örnekleme
    sample_size = int(len(summaries_data) * sample_rate)
    sample_data = random.sample(summaries_data, sample_size)
    
    # Toplu değerlendirme
    batch_prompt = "Aşağıdaki özetleri 1-10 ölçeğinde değerlendirin:\n\n"
    
    for i, data in enumerate(sample_data[:5]):  # En fazla 5 özet bir seferde
        batch_prompt += f"Özet {i+1}:\n"
        batch_prompt += f"Belge: {data['document'][:200]}...\n"
        batch_prompt += f"Özet: {data['summary']}\n\n"
    
    batch_prompt += "Her özet için sadece puanı verin (1-10):"
    
    scores = judge_llm.chat(batch_prompt)
    return scores

Sonuç

Bu makalede, LLM uygulamanızda büyük ölçekli doğrulama ve değerlendirmenin nasıl gerçekleştirileceğini ele aldım. Bunu yapmak, uygulamanızın beklendiği gibi performans göstermesini sağlamak ve kullanıcı geri bildirimlerine dayanarak uygulamanızı geliştirmek için son derece önemlidir.

Bu tür doğrulama ve değerlendirme akışlarını mümkün olan en kısa sürede uygulamanıza dahil etmenizi öneriyorum. Çünkü doğası gereği öngörülemeyen LLM’lerin uygulamanızda güvenilir bir şekilde değer sağlayabilmesi için bu süreçler kritik öneme sahiptir.

Önemli Hatırlatmalar

Erken Uygulama: Doğrulama sistemlerini geliştirme sürecinizin başında entegre edin
Sürekli İzleme: Performans metriklerini düzenli olarak takip edin
Maliyet-Fayda Dengesi: Doğrulama maliyetlerini uygulama gereksinimlerinizle dengeleyin
Kullanıcı Odaklılık: Kullanıcı geri bildirimlerini sisteminizi geliştirmek için aktif olarak kullanın