Meta’nın İleri Seviye 5 Yeni Yapay Zeka Projesi
0

Meta’nın Temel Yapay Zeka Araştırmaları (FAIR) ekibi, şirketin ileri seviye makine zekası (AMI) hedefine yönelik beş yeni projesini duyurdu. Bu projeler, yapay zekanın algılama yeteneklerini geliştirmeye, dil modellemesini ilerletmeye, robotik alanında yenilikler sunmaya ve işbirlikçi yapay zeka ajanları oluşturmaya odaklanıyor.

Meta, amacının “çevremizdeki dünya hakkında duyusal bilgileri edinebilen, işleyebilen, yorumlayabilen ve bu bilgileri insan benzeri zeka ve hızda karar vermek için kullanabilen makineler yaratmak” olduğunu belirtti. Şirketin açıkladığı beş yeni proje, bu iddialı hedefe ulaşmak için birbirinden farklı ama birbiriyle bağlantılı çabaları temsil ediyor.

Perception Encoder: Meta AI’ın “Görüşünü” Keskinleştiriyor

Yeni duyuruların merkezinde, çeşitli görüntü ve video görevlerinde üstün performans göstermek için tasarlanmış büyük ölçekli bir görüş kodlayıcısı olan Perception Encoder bulunuyor.

Görüş kodlayıcıları, yapay zeka sistemlerinin “gözleri” olarak işlev görüyor ve görsel verileri anlamalarını sağlıyor. Meta, ileri seviye yapay zeka taleplerini karşılayan kodlayıcılar geliştirmenin artan zorluğuna dikkat çekiyor. Bu kodlayıcıların görüntü ve dil arasında köprü kuruyor. Hem görüntüleri hem de videoları etkili bir şekilde işlemesi ve olası saldırılar dahil zorlu koşullar altında sağlam kalması gerekiyor.

Meta’ya göre ideal bir kodlayıcı, geniş bir kavram yelpazesini tanıyabilmeli ve aynı zamanda ince detayları ayırt edebilmelidir. Meta bu konuda “deniz tabanına gömülü bir vatoz balığını fark etmek, bir görüntünün arka planındaki küçük bir saka kuşunu tanımlamak veya gece görüşlü bir yaban hayatı kamerasında koşuşturan bir aguti yakalamak” gibi örnekler veriyor.

Meta, Perception Encoder’ın “görüntü ve video sıfır atışlı sınıflandırma ve alma konusunda olağanüstü performans gösterdİ. Bu tür görevler için mevcut tüm açık kaynaklı ve özel modelleri geçtiğini” iddia ediyor.

Dahası, algısal güçleri dil görevlerine de iyi bir şekilde aktarılıyor. Büyük bir dil modeli (LLM) ile uyumlu hale getirildiğinde, kodlayıcının görsel soru cevaplama (VQA), altyazı oluşturma, belge anlama ve sabitleme (metni belirli görüntü bölgelerine bağlama) gibi alanlarda diğer görüş kodlayıcılarından daha iyi performans gösterdiği söyleniyor. Ayrıca, mekansal ilişkileri (örneğin, “bir nesnenin diğerinin arkasında olup olmadığı”) veya bir nesneye göre kamera hareketini anlama gibi LLM’ler için geleneksel olarak zor olan görevlerde performansı artırdığı bildirildi.

Meta “Perception Encoder yeni uygulamalara entegre edilmeye başladıkça, gelişmiş görüş yeteneklerinin daha yetenekli yapay zeka sistemlerini nasıl mümkün kılacağını görmekten heyecan duyuyoruz,” dedi.

Perception Language Model (PLM): Görüş-Dil Alanında Açık Araştırma

Kodlayıcıyı tamamlayıcı nitelikte olan Perception Language Model (PLM), karmaşık görsel tanıma görevlerine yönelik açık ve yeniden üretilebilir bir görüş-dil modelidir.

PLM, harici özel modellerden bilgi damıtmadan, büyük ölçekli sentetik veriler ve açık görüş-dil veri setleri kullanılarak eğitildi.

FAIR ekibi, mevcut video anlama verilerindeki boşlukları fark ederek, ince ayrıntılı video soru cevaplama ve uzamsal-zamansal altyazı oluşturmaya odaklanan 2,5 milyon yeni, insan etiketli örnek topladı. Meta, bunun “bugüne kadarki en büyük veri seti” olduğunu iddia ediyor.

PLM, akademik araştırma ihtiyaçlarına cevap vermek üzere şeffaflık gerektiren 1, 3 ve 8 milyar parametreli sürümlerde sunuluyor.

Modellerin yanı sıra Meta, mevcut kıyaslamalarda genellikle gözden kaçan yetenekleri, yani “ince ayrıntılı aktivite anlama ve uzamsal-zamansal olarak temellendirilmiş akıl yürütme”yi test etmek için yeni bir kıyaslama olan PLM-VideoBench’i de yayınlıyor.

Firma, açık modeller, büyük veri seti ve zorlayıcı kıyaslama kombinasyonunun açık kaynak topluluğunu güçlendireceğini umuyor.

Meta Locate 3D: Robotlara Durumsal Farkındalık Kazandırma

Meta Locate 3D Dil komutları ile fiziksel eylem arasındaki boşluğu dolduruyor. Robotların doğal dil sorgularına dayalı olarak 3D bir ortamda nesneleri doğru bir şekilde yerelleştirmesine olanak tanıyan uçtan uca bir model.

Meta Locate 3D, doğrudan RGB-D sensörlerinden (bazı robotlarda veya derinlik algılama kameralarında bulunan) 3D nokta bulutlarını işler. “TV konsolunun yanındaki çiçek vazosu” gibi bir metin istemini verdiğinizde, sistem mekansal ilişkileri ve bağlamı dikkate alarak doğru nesne örneğini belirler ve onu örneğin “masadaki bir vazo”dan ayırt eder.

Sistem üç ana bölümden oluşur: 2D özellikleri 3D özelleştirilmiş nokta bulutlarına dönüştüren bir ön işleme adımı; bağlamsal bir 3D dünya temsili oluşturan önceden eğitilmiş bir model olan 3D-JEPA kodlayıcısı; ve 3D temsili ve dil sorgusunu alarak belirtilen nesneler için sınırlayıcı kutular ve maskeler çıktısı veren Locate 3D kod çözücüsü.

Model ile birlikte Meta, başvuran ifadelere dayalı nesne yerelleştirme için önemli yeni bir veri seti de yayınlıyor. ARKitScenes, ScanNet ve ScanNet++ veri setlerinden 1.346 sahne genelinde 130.000 dil açıklaması içeriyor. Ve bu alandaki mevcut açıklamalı verileri etkili bir şekilde ikiye katlıyor.

Meta, bu teknolojinin, kendi PARTNR robot projesi de dahil olmak üzere daha yetenekli robotik sistemlerin geliştirilmesi, daha doğal insan-robot etkileşimi ve işbirliği sağlanması için çok önemli olduğunu düşünüyor.

Dynamic Byte Latent Transformer: Verimli ve Sağlam Dil Modellemesi Yapay zeka

2024’ün sonlarında yayınlanan araştırmaları takiben Meta, şimdi 8 milyar parametreli Dynamic Byte Latent Transformer’ın model ağırlıklarını yayınlıyor.

Bu mimari, geleneksel tokenizasyon tabanlı dil modellerinden uzaklaşarak byte seviyesinde çalışan bir yaklaşımı temsil ediyor. Meta, bu yaklaşımın ölçekte karşılaştırılabilir performans elde ederken çıkarım verimliliği ve sağlamlık açısından önemli iyileştirmeler sunduğunu iddia ediyor.

Geleneksel LLM’ler metni “token”lara böler ve bu tokenlar yazım hatalarında, yeni kelimelerde veya düşmanca girişlerde zorlanabilir. Byte seviyesindeki modeller ham baytları işleyerek potansiyel olarak daha fazla dayanıklılık sunar.

Meta, Dynamic Byte Latent Transformer’ın “çeşitli görevlerde tokenizör tabanlı modellerden daha iyi performans gösteriyor. Ortalama olarak +7 puanlık bir sağlamlık avantajına sahip olduğunu (bozulmuş HellaSwag’de) ve CUTE token anlama kıyaslamasından gelen görevlerde +55 puana kadar çıktığını” bildiriyor.

Meta, ağırlıkları daha önce paylaşılan kod tabanıyla birlikte yayınlayarak, araştırma topluluğunu dil modellemesine bu alternatif yaklaşımı keşfetmeye teşvik ediyor.

Collaborative Reasoner: Meta Sosyal Zekaya Sahip Yapay zeka Ajanlarını İlerletiyor

Son yayınlanan projelerden Collaborative Reasoner, insanlarla veya diğer yapay zekalarla etkili bir şekilde işbirliği yapabiliyor.

Meta, insan işbirliğinin genellikle üstün sonuçlar verdiğini belirtiyor. Ve ödev yardımı veya iş görüşmesi hazırlığı gibi görevler için yapay zekayı benzer yeteneklerle donatmayı amaçlıyor.

Böyle bir işbirliği sadece problem çözme değil, aynı zamanda iletişim, empati, geri bildirim sağlama ve başkalarının zihinsel durumlarını anlama (zihin teorisi) gibi sosyal becerileri de gerektiriyor. Bunlar genellikle birden fazla konuşma turu içinde gelişiyor.

Mevcut LLM eğitimi ve değerlendirme yöntemleri genellikle bu sosyal ve işbirlikçi yönleri ihmal ediyor. Ayrıca, ilgili konuşma verilerini toplamak pahalı ve zor.

Collaborative Reasoner, bu becerileri değerlendirmek ve geliştirmek için bir çerçeve sunuyor. İki ajan arasındaki konuşma yoluyla gerçekleştirilen çok adımlı akıl yürütme gerektiren hedef odaklı görevleri içeriyor. Çerçeve, yapıcı bir şekilde anlaşmazlık, bir ortağı ikna etme ve ortak en iyi çözüme ulaşma gibi yetenekleri test ediyor.

Meta’nın değerlendirmeleri, mevcut modellerin daha iyi sonuçlar elde etmek için işbirliğinden tutarlı bir şekilde yararlanmakta zorlandığını ortaya koydu. Bunu ele almak için, bir LLM ajanının kendisiyle işbirliği yaptığı sentetik etkileşim verilerini kullanan bir öz-iyileştirme tekniği öneriyorlar.

Bu verileri büyük ölçekte üretmeyi Matrix adı verilen yeni bir yüksek performanslı model sunum motoru sağlıyor. Bu yaklaşımın matematik, bilimsel ve sosyal akıl yürütme görevlerinde, tek bir LLM’nin standart ‘düşünce zinciri’ performansına kıyasla %29,4’e varan iyileştirmeler sağladığı bildiriliyor.

Meta, veri üretimi ve modelleme boru hattını açık kaynak haline getirerek, “insanlar ve diğer ajanlarla ortaklık kurabilecek gerçekten sosyal ajanlar” yaratma konusundaki araştırmaları teşvik etmeyi amaçlıyor.

Bu beş proje toplu olarak, Meta’nın özellikle makinelerin daha insan benzeri yollarla dünyayı algılayabilmesi, anlayabilmesi ve etkileşime girebilmesi için devam eden büyük yatırımını vurguluyor.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir