Çinli girişimci onda bir maliyetle bedava kullanılabilen ve daha yetenekli bir yapay zeka kurdu

20 Ocak 2025’te, Çin merkezli AI araştırma laboratuvarı DeepSeek, çıkardığı açık kaynaklı model DeepSeek-R1 ile yapay zekâ dünyasında büyük yankı uyandırdı. Bu model, OpenAI ve Meta gibi Batılı devlerin liderlik ettiği AI alanında büyük bir tehdit olarak algılanıyor.

Silikon Vadisi’ndeki teknoloji devleri için asıl şok edici olan, DeepSeek’in ABD’nin katı çip kısıtlamalarına rağmen çok daha düşük maliyetle OpenAI ve Meta gibi şirketlerle rekabet edebilecek seviyede bir model geliştirmesi oldu. Üstelik DeepSeek-R1’in açık kaynaklı olması, rakiplerinin tersine daha geniş bir araştırma topluluğu tarafından iyileştirilebilir olmasını sağlıyor. ABD’li şirketler milyarlarca dolarlık bütçelerle büyük GPU kümelerine yatırım yaparken, DeepSeek yalnızca 5.6 milyon dolarlık bir bütçeyle ve kısıtlı çip kaynaklarıyla bu başarıyı elde etti. Bu durum, Batılı devlerin AI yarışındaki geleneksel stratejilerinin sorgulanmasına yol açtı.

DEEPSEEK NEDİR?

DeepSeek, 2023 yılında High-Flyer adlı Çinli nicel hedge fonunun bir yan kuruluşu olarak kurulan bir yapay zekâ araştırma laboratuvarıdır. Kurucusu Liang Wenfeng, High-Flyer’daki güçlü hesaplama altyapısını kullanarak bağımsız bir AI şirketine dönüştürdü. DeepSeek, büyük AI modellerini geliştirmek için daha düşük maliyetli ve verimli hesaplama stratejileri kullanarak öne çıkmaktadır.

DeepSeek’in farkı, kapalı sistemler yerine açık kaynaklı AI modelleri geliştirmesi ve bunları küresel araştırmacılarla paylaşmasıdır. MIT lisansı altında yayınlanan DeepSeek-R1 modeli, geliştiricilere özgürce kullanma, değiştirme ve ticarileştirme imkânı sunarak AI araştırmalarını hızlandırmayı ve AI ekosistemine katkı sağlamayı hedeflemektedir.

DEEPSEEK’İN BAŞARISININ SIRRI NE?

DeepSeek’in başarısı, sınırlı kaynaklarla yüksek verimli AI modelleri geliştirme yeteneğinde yatıyor. Şirket, geleneksel devasa GPU kümelerine ve büyük bütçelere güvenmek yerine, yenilikçi yazılım optimizasyonları ve hesaplama stratejileri ile rakipleriyle rekabet ediyor.

📌 Maliyet Karşılaştırması:

  • DeepSeek-R1 Modeli: 2,048 Nvidia H800 GPU kullanılarak 5.6 milyon dolarlık bir bütçeyle eğitildi.
  • Meta Llama 3.1 Modeli: 16,384 Nvidia H100 GPU kullanılarak 60 milyon dolarlık bir bütçeyle eğitildi.
  • OpenAI GPT-4 Modeli: Tahmini olarak 100 milyon doların üzerinde bir bütçeyle eğitildi.
  • Google Gemini Modeli: 150 milyon doları aşan bir bütçeyle eğitildi.

DeepSeek, rakiplerine kıyasla 10 ila 20 kat daha düşük bir bütçeyle model eğitimi yapmayı başardı. Bu da şirketin, donanım gücünden çok verimli yazılım optimizasyonları, model mimarisi iyileştirmeleri ve açık kaynak işbirlikleriyle ilerlediğini gösteriyor.

📌 Parametre Sayısı Karşılaştırması:

  • DeepSeek-R1: 671 milyar parametre
  • OpenAI GPT-4: 1.8 trilyon parametre (karma model yapısıyla)
  • Google Gemini 1.5 Pro: 1.5 trilyon parametre
  • Anthropic Claude 3: 1.2 trilyon parametre
  • Meta Llama 3.1: 400 milyar parametre

DeepSeek, parametre sayısı açısından rakiplerinden düşük olmasına rağmen, Mixture-of-Experts (MoE) ve Multi-head Latent Attention (MLA) tekniklerini kullanarak daha verimli hesaplama sağlıyor ve böylece düşük maliyetle yüksek performans sunabiliyor.

YENİLİKÇİ TEKNİKLER VE AÇIK KAYNAK YAKLAŞIMI

Büyük Dil Modelleri (LLM) ve Zincirleme Düşünce (Chain-of-Thought, CoT) sistemleri farklı çalışma prensiplerine sahiptir. LLM’ler, büyük metin veri kümeleri üzerinde eğitilerek dil anlama, üretme ve dönüşüm görevlerinde başarılı olmaya odaklanır. Ancak, geleneksel LLM’ler genellikle akıl yürütme ve karmaşık problem çözme konularında yetersiz kalır.

CoT modelleri, bir problemi parçalara bölerek adım adım analiz yapar ve daha mantıklı sonuçlar üretir. Bu yaklaşım, yapay zekâ sistemlerinin matematik, mantık, kodlama ve planlama gibi karmaşık görevlerde daha başarılı olmasını sağlar. DeepSeek-R1 modeli de bu yöntemleri kullanarak, geleneksel LLM’lere kıyasla daha yüksek doğrulukta sonuçlar üretmektedir.

DeepSeek, “DualPipe” algoritmasını kullanarak hesaplama ve veri transfer süreçlerini optimize etti. Bu yaklaşım, modelin eğitim sürecinde daha az hesaplama gücü tüketmesini ve daha verimli çalışmasını sağladı. Ayrıca FP8 düşük hassasiyetli hesaplama yöntemleriyle bellek tüketimini azalttı ve daha az hesaplama gücüyle rekabet edebilir modeller oluşturdu. Bu teknikler sayesinde, DeepSeek-R1, Meta ve OpenAI’nin modellerine kıyasla 11 kat daha az işlem gücü kullanarak yüksek performans sağlayabildi. Bu verimlilik, ABD’nin çip kısıtlamalarına rağmen DeepSeek’in büyük AI modelleriyle rekabet edebilmesini sağladı.

LİANG WENFENG: VİZYONER BİR GİRİŞİMCİNİN HİKAYESİ

DeepSeek’in arkasındaki isim Liang Wenfeng, Çin’in en başarılı nicel hedge fonlarından biri olan High-Flyer Capital’in kurucusudur. Bilgisayar bilimi alanında yüksek lisans derecesine sahip olan Wenfeng, finans dünyasında yapay zekâ destekli ticaret algoritmaları geliştirerek büyük başarı elde etti. Ancak onun asıl hedefi, yapay zekâ alanında çığır açan projelere imza atmaktı.

2021 yılında, henüz AI girişimlerinin çoğu büyük teknoloji şirketleri tarafından yönlendirilirken, Wenfeng bağımsız olarak 10.000 Nvidia GPU satın alarak kendi yapay zekâ altyapısını kurmaya başladı. O dönemde, bu hareket sektörde çılgınca olarak görülse de, onun uzun vadeli vizyonu DeepSeek’in temelini oluşturdu. 2023’te DeepSeek’i kurarak hedge fon dünyasındaki uzmanlığını AI model geliştirmeye taşıdı.

Wenfeng, geleneksel girişimcilik yollarından farklı bir strateji izleyerek DeepSeek’i tamamen araştırma odaklı bir yapıya kavuşturdu. Dev teknoloji şirketlerinin aksine, kendi fonlarından AI projelerine yatırım yaparak dış yatırımcılara bağımlı olmadan ilerledi. Bu sayede ticari baskılar olmaksızın, inovasyona ve bilimsel araştırmaya öncelik verdi.

ABD’nin yapay zekâ çipleri üzerindeki ihracat kısıtlamaları, Çinli girişimciler için büyük bir engel oluşturduğunda, Wenfeng ve ekibi daha düşük güçlü çipleri en verimli şekilde kullanacak algoritmalar geliştirmeye odaklandı. Böylece, 11 kat daha az işlem gücüyle OpenAI ve Google gibi devlerle rekabet edebilen bir model üretebildiler.

Bugün Liang Wenfeng, DeepSeek ile sadece Çin’de değil, küresel AI ekosisteminde de önemli bir figür haline gelmiş durumda. Açık kaynaklı AI modellerini destekleyen vizyonu sayesinde, dünya çapında birçok araştırmacı ve geliştirici DeepSeek’in projelerinden yararlanabiliyor.

SONUÇ: DeepSeek’in başarısı, yapay zekâ dünyasında yeni bir paradigma değişiminin habercisi olabilir. ABD’nin AI hesaplama kaynaklarını kontrol etme stratejisi, Çinli araştırmacıları daha yaratıcı çözümler bulmaya itiyor. DeepSeek’in gelecek adımları, AI dünyasında dengenin nasıl değişeceğini belirleyebilir.