DeepSeek Yeni Nesil R2 Modeli ve GRM

Okuma süresi: 6dk, 55sn

Büyük dil modelleri alanında önemli bir oyuncu olan DeepSeek AI, yakın zamanda çıkarım aşamasında genel ödül modellerinin (GRM) ölçeklenebilirliğini artırmayı amaçlıyor. Aynı zamanda şirket, yapay zeka topluluğunda heyecan yaratan bir gelişme olarak bir sonraki nesil modeli R2’nin yakında geleceğine dair ipuçları verdi.

DeepSeek ‘in Yenilikçi Yaklaşımı

“Inference-Time Scaling for Generalist Reward Modeling” (Genelci Ödül Modellemesi için Çıkarım Zamanı Ölçeklendirme) başlıklı makale, GRM’lerin dinamik olarak ilkeler ve eleştiriler üreterek ödül üretimini optimize etmesine olanak tanıyan yeni bir yöntem sunuyor. Bunu, reddetme ince ayarı (rejection fine-tuning) ve kural tabanlı çevrimiçi pekiştirmeli öğrenme yoluyla gerçekleştiriliyor.

Bu gelişme, OpenAI’nin o1 gibi modellerin ortaya çıkmasının ardından, Büyük dil modelleri ölçeklendirme paradigmasının ön eğitim aşamasından eğitim sonrası ve özellikle çıkarım aşamasına kayması durumunda gerçekleşiyor. Bu yaklaşım, model performansını sürekli olarak iyileştirmek için eğitim sırasında artan pekiştirmeli öğrenme (hesaplama çabası) ve test sırasında daha kapsamlı “düşünme süresi” (hesaplama çabası) kullanıyor. Özellikle o1, kullanıcılara yanıt vermeden önce uzun bir iç düşünce zinciri oluşturarak, akıl yürütme sürecini geliştiriyor, farklı stratejileri keşfediyor ve kendi hatalarını tespit ediyor.

DeepSeek’in kendi R1 serisi modelleri, BDM’lerin akıl yürütme yeteneklerinde önemli sıçramalar elde etmek için denetimli ince ayara dayanmayan saf pekiştirmeli öğrenme eğitiminin potansiyelini daha da doğruladı.

Büyük Dil Modellerinin Temel Mekanizması ve Pekiştirmeli Öğrenmenin Önemi

Büyük dil modellerinin temel “bir sonraki token tahmini” mekanizması, geniş bilgi sağlarken genellikle derin planlama ve uzun vadeli sonuçları tahmin etme yeteneğinden yoksundur. Bu da onları kısa görüşlü kararlar vermeye yatkın hale getirir. Pekiştirmeli öğrenme, Büyük dil modellerine bir “İç Dünya Modeli” sağlayarak kritik bir tamamlayıcı görevi görür. Bu, farklı akıl yürütme yollarının potansiyel sonuçlarını simüle etmelerini, bu yolların kalitesini değerlendirmelerini ve üstün çözümler seçmelerini sağlar, nihayetinde daha sistematik uzun vadeli planlamaya yol açar.

Büyük dil modelleri ve pekiştirmeli öğrenme arasındaki sinerji, karmaşık sorunları çözme yeteneğini artırmanın anahtarı olarak giderek daha fazla kabul edilmektedir.

Tsinghua Disiplinlerarası Bilgi Bilimleri Enstitüsü’nde (IIIS) yardımcı doçent olan Wu Yi, yakın zamandaki bir podcast’te Büyük dil modelleri ve pekiştirmeli öğrenme arasındaki ilişkiyi bir “çarpımsal ilişki” olarak nitelendirdi. Pekiştirmeli öğrenme karar vermede üstünken, doğası gereği anlamadan yoksundur.

Anlama inşası, ön eğitimli modellere dayanır ve bunun üzerine pekiştirmeli öğrenme daha sonra karar verme yeteneklerini daha da optimize edebilir. Bu “çarpımsal ilişki”, pekiştirmeli öğrenmenin tam bir akıllı ajan oluşturma potansiyelini tamamen ortaya çıkarabilmesi için, ön eğitim sırasında anlama, hafıza ve mantıksal akıl yürütmenin güçlü bir temelinin oluşturulması gerektiğini öne sürüyor.

Büyük Dil Modelleri Eğitmek için Pekiştirmeli Öğrenmenin Üç Adımlı Süreci

“Reinforcement Learning Enhanced LLMs: A Survey” (Pekiştirmeli Öğrenme ile Geliştirilmiş BDM’ler: Bir İnceleme) başlıklı kapsamlı bir araştırma makalesi, Büyük dil modellerini eğitmek için pekiştirmeli öğrenmeyi kullanmanın tipik üç adımlı sürecini ana hatlarıyla belirtiyor:

Ödül Modeli Eğitimi: İnce ayar öncesinde, insan tercihlerini yaklaşık olarak tahmin etmek ve farklı BDM çıktılarını değerlendirmek için bir ödül modeli (veya ödül fonksiyonu) eğitilir.
Tercih Tabanlı İnce Ayar: Her ince ayar iterasyonunda, büyük dil modeli belirli bir talimata birden fazla yanıt üretir ve her yanıt, eğitilmiş ödül modeli kullanılarak puanlanır.
Politika Optimizasyonu: Tercih puanlarına dayalı olarak modelin ağırlıklarını güncellemek için pekiştirmeli öğrenme optimizasyon teknikleri kullanılır, yanıt üretimini iyileştirmeyi amaçlar.

Pekiştirmeli öğrenmeyi entegre etmek, büyük dil modellerinin değişen tercih puanlarına göre dinamik olarak ayarlanmasına, tek, önceden belirlenmiş bir cevabın sınırlamalarının ötesine geçmesine olanak tanır.

DeepSeek’in SPCT: Büyük Dil Modelleri için Pekiştirmeli Öğrenmenin Ölçekleme Zorluklarını Ele Alma

Eğitim sonrası aşamada pekiştirmeli öğrenmenin Büyük dil modelleri performansını artırmada bir atılım olarak başarısına rağmen, pekiştirmeli öğrenme algoritmalarının kendilerinin hala önemli gelişim alanları bulunmaktadır ve pekiştirmeli öğrenmenin “Ölçekleme Yasaları” hala başlangıç aşamasındadır.

Model performansını iyileştirmek için veri ve hesaplamayı artırmaya odaklanan geleneksel ölçekleme yasalarının aksine, pekiştirmeli öğrenme için ölçekleme yasaları, örnek çıktısı, model parametre boyutu ve eğitim ortamının karmaşıklığı dahil olmak üzere daha karmaşık faktörlerden etkilenir.

Pekiştirmeli öğrenmenin ölçeklendirilmesinde büyük bir engel, ödül seyrekliğidir. Ödül modeli kritik bir bileşendir ve doğru ödül sinyalleri üretmek çok önemlidir. Ödül modellerinde hem genelleme hem de süreklilik sağlamak temel bir odak noktasıdır.

DeepSeek ve Tsinghua araştırmacıları, son çalışmalarında çıkarım zamanında ödül modellerinin ölçeklenebilirliğini ve genelleştirme yeteneğini inceleyerek bu zorluğa değindiler. Önerdikleri Self-Principled Critique Tuning (SPCT) yöntemi, çıkarım sırasında genel ödül modellemesinin ölçeklenebilirliğini iyileştirmeyi amaçlıyor.

SPCT Yaklaşımının İki Ana Aşaması

SPCT yaklaşımı iki önemli aşamayı içerir:

Reddetme İnce Ayarı (Rejection Fine-Tuning): Bu, GRM’nin doğru format ve türde ilkeler ve eleştiriler üretmeye uyum sağlamasını sağlayan bir soğuk başlangıç görevi görür.
Kural Tabanlı Çevrimiçi Pekiştirmeli Öğrenme: Bu aşama, ilkeler ve eleştirilerin üretimini daha da optimize eder.

Etkili çıkarım zamanı ölçeklendirmesi elde etmek için araştırmacılar, hesaplama kullanımını en üst düzeye çıkarmak için paralel örnekleme kullandılar. Birden fazla örnekleme yaparak, DeepSeek-GRM farklı ilke ve eleştiri setleri oluşturabilir ve oylama yoluyla nihai ödülü seçebilir. Ayrıca, oylama sürecini yönlendirmek için bir meta-ödül modeli (Meta RM) eğitilir, bu da ölçekleme performansını daha da artırır. Meta RM, DeepSeek-GRM tarafından üretilen ilkelerin ve eleştirilerin doğruluğunu belirlemek için tasarlanmış noktadan noktaya bir skaler ödül modelidir.

Deneysel sonuçlar, SPCT’nin GRM’lerin kalitesini ve ölçeklenebilirliğini önemli ölçüde iyileştirdiğini, mevcut yöntem ve modelleri önemli bir alan yanlılığı olmaksızın birden fazla kapsamlı ödül modeli kıyaslama testinde geride bıraktığını gösterdi.

İleriye Bakış: Ufukta DeepSeek R2

Araştırma makalesi ödül modellemesi ve çıkarım zamanı ölçeklendirmesindeki ilerlemelere odaklanırken, DeepSeek’in R1 serisine atıfta bulunması ve üstü kapalı ilerleme, şirketin aktif olarak bir sonraki nesil modeli olan R2’yi geliştirdiğini gösteriyor. DeepSeek’in akıl yürütmeyi geliştirmek için saf pekiştirmeli öğrenmeye verdiği önemi göz önüne alındığında, R2’nin bu en son ölçeklenebilir ödül modelleri araştırmasından elde edilen içgörüleri dahil etmesi ve bunların üzerine inşa etmesi büyük ölçüde bekleniyor.

Yapay zeka topluluğu, DeepSeek’in büyük dil modeli yeteneklerinin sınırlarını zorlamak için pekiştirmeli öğrenme ve çıkarım optimizasyonuna yönelik yenilikçi yaklaşımlarını nasıl kullanacağını görmek için DeepSeek R2 ile ilgili daha fazla duyuruyu dikkatle izleyecek. Ölçeklenebilir ödül modellerine odaklanma, bir sonraki amiral gemisi modellerinde daha da gelişmiş öz değerlendirme ve iyileştirme mekanizmalarına yönelik potansiyel bir vurguya işaret ediyor.