Yapay zeka hızlı gelişiminin limitlerine geliyor

Kuantizasyon, bilgisayar bilimi ve yapay zekâ bağlamında, bilgiyi temsil etmek için kullanılan veri formatını veya bit sayısını azaltma işlemidir. Daha basit bir ifadeyle, kuantizasyon, karmaşık bilgileri daha az hassas ancak daha küçük boyutlu bir şekilde ifade etme sürecidir. Bu, özellikle yapay zekâ modellerinde, hesaplama maliyetlerini düşürmek ve performansı artırmak amacıyla kullanılır.

AI bağlamında, kuantizasyon, bilgiyi temsil etmek için gereken bit (bir bilgisayarın işleyebileceği en küçük birimler) sayısını azaltmayı ifade eder. Bunu şu şekilde düşünün: Biri size saati sorduğunda, büyük olasılıkla “öğlen” dersiniz, “on iki sıfır sıfır, bir saniye ve dört milisaniye” demezsiniz. Her iki cevap da doğrudur, ancak biri biraz daha hassastır. Ne kadar hassasiyet gerektiği ise bağlama bağlıdır.

Yapay zekâ modelleri, özellikle tahminler veya kararlar almak için kullanılan iç değişkenler olan parametreleri kuantize edebilir. Bu oldukça yararlıdır çünkü modeller çalıştırıldığında milyonlarca hesaplama yapar. Daha az bit ile temsil edilen parametrelere sahip kuantize modeller, matematiksel olarak daha az talepkardır ve dolayısıyla hesaplama açısından daha verimlidir.

Harvard, Stanford, MIT, Databricks ve Carnegie Mellon’dan araştırmacıların yaptığı bir çalışmaya göre, kuantize edilmiş modeller, orijinal kuantize edilmemiş versiyon uzun süre boyunca çok miktarda veriyle eğitilmişse daha kötü performans gösteriyor. Başka bir deyişle, belirli bir noktada, büyük bir modeli “pişirip küçültmektense” daha küçük bir modeli eğitmek daha iyi olabilir.

Bu, büyük modeller eğitip ardından maliyetleri düşürmek için bunları kuantize eden yapay zekâ şirketleri için kötü haber olabilir. Örneğin, birkaç ay önce geliştiriciler ve akademisyenler, Meta’nın Llama 3 modelinin diğer modellere göre daha “zararlı” bir şekilde kuantize edildiğini bildirdi. Bunun, modelin nasıl eğitildiğiyle ilgili olabileceği düşünülüyor.

Popüler inanışın aksine, yapay zekâ modelinin eğitim maliyeti toplamda genellikle modelin çalıştırılma maliyetinden daha azdır. Örneğin, Google’ın bir Gemini modelini eğitmek için 191 milyon dolar harcadığı tahmin ediliyor. Ancak, bu modeli yalnızca Google Arama sorgularının yarısına 50 kelimelik cevaplar üretmek için kullanması durumunda yıllık 6 milyar dolar harcayacağı öngörülüyor.