Çoğu yapay zeka kıyaslama testi aslında bize pek bir şey söylemiyor. Çoğu, ezberle çözülebilecek sorular soruyor ya da çoğu kullanıcının ilgi alanına girmeyen konuları kapsıyor. Bu yüzden bazı yapay zeka meraklıları, AI’ların problem çözme yeteneklerini test etmek için oyunlara yöneliyor.
Freelance yapay zeka geliştiricisi Paul Calcraft, iki yapay zeka modelinin bir Pictionary benzeri oyun oynamasını sağlayan bir uygulama geliştirdi. Bir model çizim yaparken, diğeri bu çizimin neyi temsil ettiğini tahmin etmeye çalışıyor.
Calcraft “Bu fikir, model yetenekleri açısından süper eğlenceli ve potansiyel olarak ilginç geldi” dedi. “Bu yüzden bulutlu bir Cumartesi günü evde oturup uygulamayı tamamladım.”
Calcraft, İngiliz programcı Simon Willison’un, modellerin bir bisiklete binen pelikanın vektör çizimini oluşturması için çalıştığı benzer bir projeden ilham aldı. Willison, Calcraft gibi, modelleri eğitim verilerinin ötesinde “düşünmeye” zorlayacağını düşündüğü bir meydan okumayı seçmişti.
Calcraft, “Amacım, kolayca manipüle edilemeyecek bir kıyaslama oluşturmaktı,” dedi. “Bir modelin, eğitim sırasında gördüğü belirli cevapları veya basit kalıpları ezberleyerek üstesinden gelemeyeceği bir kıyaslama.”
Minecraft da Calcraft’ın deyimiyle “manipüle edilemeyen” bir kategoriye giriyor. 16 yaşındaki Adonis Singh, bir modelin Minecraft karakterini kontrol etmesini ve çeşitli yapılar tasarlama becerisini test eden Mcbench adlı bir araç geliştirdi. Bu, Microsoft’un Project Malmo’su ile benzer bir yaklaşımı izliyor.
“Ben Minecraft’ın modellere kaynak bulma yeteneğini test ettiğine ve onlara daha fazla özgürlük tanıdığına inanıyorum,” dedi Singh. “Diğer kıyaslamalar kadar kısıtlayıcı ve dolu değil.”
AI’yi oyunlarla test etme fikri yeni değil: 1949’da matematikçi Claude Shannon, satranç gibi oyunların “zeki” yazılımlar için ciddi bir zorluk oluşturduğunu savunmuştu. Daha yakın zamanlarda Alphabet’in DeepMind ekibi Pong ve Breakout oyunlarını oynayabilen bir model geliştirdi; OpenAI, yapay zekayı Dota 2 maçlarında rekabet etmek üzere eğitti; ve Meta, profesyonel Texas Hold’em oyuncularına karşı yarışabilecek bir algoritma tasarladı.
Ancak günümüzde fark yaratansa, meraklıların büyük dil modellerini (LLM’ler) — metin, görüntü ve daha fazlasını analiz etme yeteneğine sahip modelleri — oyunlarla birleştirerek onların mantık yeteneklerini test etme çabası.
Calcraft, “LLM’lerin belirli soru şekillerine duyarlı oldukları, genellikle güvenilmez ve öngörülemez oldukları biliniyor,” dedi. Oyunların ise bir modelin performansını ve davranışını görsel ve sezgisel bir şekilde karşılaştırmak için bir fırsat sunduğunu belirtti.
Alberta Üniversitesi’nde yapay zeka araştırmacısı ve profesör olan Matthew Guzdial, “Her kıyaslamayı, belirli problem türlerine odaklanmış bir gerçeklik basitleştirmesi olarak görebiliriz, örneğin akıl yürütme veya iletişim,” dedi. “Oyunlar da AI ile karar verme için diğer yaklaşımlar gibi kullanılıyor.”
Üretici yapay zekanın tarihine aşina olanlar, Pictionary oyununun, görüntü üreten bir modelin bunları bir değerlendirme modeline gönderdiği generatif adversarial network (GAN) mimarisine benzer olduğunu fark edecektir.
Calcraft, Pictionary oyununun modellerin şekiller, renkler ve “içinde” ile “üzerinde” gibi edatların anlamı gibi kavramları anlama yeteneklerini değerlendirebileceğine inanıyor. Oyunun tam anlamıyla bir akıl yürütme testi olduğunu söylemeyeceğini belirtiyor, ancak kazanmanın strateji ve ipuçlarını anlama becerisi gerektirdiğini, bu ikisinin de modeller için kolay olmadığını savunuyor.
“Pictionary’nin neredeyse GAN’lara benzer, iki farklı role sahip neredeyse düşmanca bir doğası var; biri çiziyor, diğeri tahmin ediyor,” dedi. “En iyi çizim yapan model en sanatsal olan değil, diğer LLM’lere (daha hızlı ve daha az yetenekli modellere de dahil) fikri en net şekilde iletebilen model.”
“Pictionary, hemen pratik veya gerçekçi olmayan bir oyuncak problem,” diye uyardı Calcraft. “Ancak, mekansal algı ve çoklu modlar, yapay zekanın ilerlemesi için kritik unsurlar. Bu yüzden, LLM Pictionary bu yolda küçük ama erken bir adım olabilir.”