Türkçe yapay zekada fazla jeton yakıyor

1980 ve öncesinde doğmuş kuşaklar jeton kullanımına aşina. O yıllarda telefonlar sokaktaydı ve jetonla çalışıyordu. Makineye attığınız jeton kadar konuşabiliyor ve sonrasında size jetonlarla verilen haklar bittiğinde konuşmanız kesiliyordu. Ardından oyun makinesi dükkanları geldi. Oyun makinelerinde yine aynı mantıkta bize verilen süre kadar oyun oynayabilmeye başladık.

Bu kavram gelişen teknoloji ve pazarlama dünyasında unutulmaya yüz tutmuşken karşımıza yapay zeka çıktı. Jeton, tokenizasyonla yeniden tanıştık.

ChatGPT, OpenAI’nin GPT-3 ve GPT-4 gibi büyük dil modellerinde kullanılan bir token yapısına dayanmaktadır.

Tokenizasyon, metinlerin daha küçük parçalara, yani tokenlara bölünmesi işlemidir. Bu tokenlar kelimeler, heceler veya bireysel karakterler olabilir. Tokenizasyon süreci, modellerin daha verimli çalışmasını sağlamak ve metinlerin anlamını korumak amacıyla gerçekleştirilir.

GPT nasıl jeton kullanıyor?

GPT modelleri, OpenAI tarafından geliştirilen ve transformer mimarisine dayanan büyük dil modelleridir. Bu modeller, metinleri işlemeye uygun hale getirmek için Byte Pair Encoding (BPE) adı verilen bir yöntem kullanır. BPE, sık kullanılan kelime parçalarını ve karakter kombinasyonlarını birleştirerek tokenlar oluşturur.

  1. Kelime Tokenları: Bazı durumlarda, tokenlar tüm kelimeleri temsil edebilir. Örneğin, “fantastic” kelimesi tek bir token olabilir.
  2. Hecesel Tokenlar: Kelimeler hecelere bölünebilir. Örneğin, “fantastic” kelimesi “fan,” “tas,” ve “tic” olarak üç tokena bölünebilir.
  3. Karakter Tokenları: Tokenlar bireysel karakterler olabilir. Örneğin, “fantastic” kelimesi “f,” “a,” “n,” “t,” “a,” “s,” “t,” “i,” “c” olarak dokuz tokena bölünebilir.

Tokenizasyon, modellerin anlamlı metin üretmesini ve analiz etmesini sağlar. Ancak, tokenizasyon süreci bazı zorluklar da oluşturabilir.

Örneğin:

  • Boşluk ve Noktalama İşaretleri: Farklı boşluk veya noktalama işaretleri farklı tokenlar oluşturabilir ve modelin anlamını değiştirebilir.
  • Büyük/Küçük Harf Farklılıkları: Büyük harflerle yazılan kelimeler, küçük harflerle yazılanlardan farklı tokenlara dönüştürülebilir.
  • Dil Farklılıkları: Tokenizasyon yöntemleri genellikle İngilizce için optimize edilmiştir, bu da diğer dillerde performans sorunlarına yol açabilir.

Çoğu yapay zeka modeli, “transformer” olarak bilinen bir mimari üzerine kuruludur. Transformerlar, metin ve diğer veri türleri arasında ilişki kurma biçimleri nedeniyle ham metni doğrudan alamaz. Veya büyük bir hesaplama gücü olmadan çıktı olarak veremezler. Bu nedenle, hem pragmatik hem de teknik nedenlerle, günümüzün transformer modelleri, tokenizasyon olarak bilinen bir süreçle daha küçük parçalara, yani tokenlara ayrılmış metinlerle çalışır.

Birçok tokenizasyon yöntemi, bir cümledeki boşluğun yeni bir kelimeyi gösterdiğini varsayar. Bunun nedeni, bu yöntemlerin İngilizce düşünülerek tasarlanmış olmasıdır. Ancak tüm diller kelimeleri ayırmak için boşluk kullanmaz. Çin ve Japon dilleri kullanmaz — Korece, Tayca veya Khmer de kullanmaz.

  • İngilizce‘de kelimeler genellikle kısa ve sık kullanılan kelimelerden oluşur. Örneğin, “Çekoslavakya” kelimesi tek bir token olarak temsil edilebilir. Türkçe gibi eklemeli dillerde kelimeler birçok küçük anlamlı parçalardan (morfemlerden) oluşur. Örneğin, “Çekoslavakyalılaştıramadıklarımızdan mısınız” kelimesi, birçok morfeme ayrılabilir ve bu nedenle daha fazla token gerektirebilir.

Farklı dillerin farklı token verimliliği vardır. Bu, aynı anlamı iletmek için gereken token sayısının değişkenlik göstermesi anlamına gelir.

Eklemeli diller

Agglunatif, eklerle zenginleşen diller hangileri derseniz:

  1. Türkçe: Türk dilleri ailesinin bir üyesidir ve kelime köklerine eklerin eklenmesi yoluyla yeni kelimeler oluşturulur.
  2. Fince: Ural dilleri ailesine ait olan Fince, kelime köklerine eklerin eklenmesiyle gramatik işlevleri ve anlamları ifade eden bir dildir.
  3. Macarca: Yine Ural dilleri ailesine ait olan Macarca, eklemeli bir yapıya sahiptir ve kelime köklerine ekler ekleyerek yeni kelimeler oluşturur.
  4. Japonca: Japon dilleri ailesine ait olan Japonca, kelime köklerine eklerin eklenmesiyle gramatik bilgileri ve anlamları ifade eden bir dildir.
  5. Korece: Korece, Altay dilleri ailesine ait olduğu düşünülen bir dildir ve eklemeli yapısıyla bilinir.
  6. Svahili: Bantu dilleri ailesine ait olan Svahili, kelime köklerine eklerin eklenmesi yoluyla gramatik işlevleri ve anlamları ifade eder.
  7. Baskça: İzole bir dil olan Baskça, kelime köklerine eklerin eklenmesiyle gramatik işlevleri ve anlamları ifade eden bir dildir.
  8. Quechua: Güney Amerika’nın yerli dillerinden biri olan Quechua, kelime köklerine eklerin eklenmesiyle yeni kelimeler oluşturur.
  9. Sümerce: Tarih öncesi bir dil olan Sümerce, eklemeli bir yapıdadır ve kelime köklerine ekler ekleyerek yeni kelimeler oluşturur.