Çin’in Yapay Zeka Evrimi: DeepSeek ve Ulusal Güvenlik. Centre for Emerging Technology and Security/ The Alan Turing Insitute

Uzman Analizi / Sarah Mercer , Samuel Spillard , Daniel Martin / 7 Şubat 2025

 

Bu yayın , orijinal yazarlara ve kaynaklara atıfta bulunulması koşuluyla sınırsız kullanıma izin veren Creative Commons Atıf Lisansı 4.0 koşulları uyarınca lisanslanmıştır .

Devlet yetkilileri ve politika yapıcılar için erişilebilirliği kolaylaştırmak amacıyla, bu özet teknik karmaşıklığı en aza indirerek düzenlenmiştir. Daha teknik ayrıntılarla ilgilenen okuyucular için, bu Uzman Analizinin dayandığı tam makaleyi okumanızı öneririz.

Üretken AI’nın nispeten kısa geçmişi, model yeteneğinde büyük adımlarla noktalanmıştır. Bu adımlardan biri, Aralık 2024’ün sonlarında OpenAI’nin GPT-4o’suna rakip olan Çin yapımı DeepSeek-V3’ün ve 20 Ocak’ta DeepSeek-R1’in piyasaya sürülmesiyle geldi. DeepSeek-V3’ün yaklaşık 5,6 milyon dolara veya karşılaştırılabilir modellerin maliyetinin %2’sine iki ayda eğitildiği bildirildi . DeepSeek-R1, OpenAI’nin o1’ine benzer performans elde eden “çok sayıda güçlü ve ilgi çekici akıl yürütme davranışı” içeren bir dizi akıl yürütme modeli içerir. Her iki DeepSeek modeli de araştırmacıların incelemesi için açıktır .

Bu açıklık, kullandıkları modeller hakkında daha fazla bilgi edinmek isteyen birçok AI araştırmacısı için memnuniyet vericidir. DeepSeek, modelleri açık ağırlıklar olarak yayınladı – bunlar üzerine inşa edilebilir ve serbestçe kullanılabilir (MIT lisansı altında) – ancak eğitim verileri olmadan. Bu, bunların gerçekten açık kaynaklı olmadığı anlamına gelse de, şirket eğitim süreci hakkında normalden daha fazla ayrıntı yayınladı.

Modellerin yayınlanmasının en azından iki büyük teknik sonucu vardır. Birincisi, daha büyük modellerden daha küçük bir modele bilgi aktarmanın mümkün olmasıdır, bu da eğitim sonrası bir kısayol sağlar. İkincisi, basit takviyeli öğrenmenin (RL) daha düşük hesaplama maliyetlerinde önemli, ancak dar performans iyileştirmeleri sağlayabilmesidir. Her iki yaklaşım da, daha küçük, merkezi olmayan modellerde daha iyi muhakeme yeteneği için bir temel sağlayarak, savunma ve ulusal güvenlik portföyündeki risk eşiklerini değiştirebilir – özellikle kötü niyetli siber faaliyet, yanlış bilgi ve dezenformasyon (deepfake üretimi dahil) gibi alanlarda.

DeepSeek’in açık ağırlık sürümü, halüsinasyon gibi büyük dil modelleriyle (LLM’ler) yaygın olarak ilişkilendirilen sorunları çözmez , ancak medya ilgisiyle desteklenerek, bu tür modellerin işletmeler, araştırmacılar ve hobiciler tarafından yaygın olarak benimsenmesi için yeterince iyi olup olmadığı sorununu gündeme getirdi. Bazı kullanıcılar, Çinli çokuluslu Alibaba tarafından üretilen bir yapay zeka modeli olan Qwen’in damıtılmış sürümünü Raspberry PI sistemlerine yükledi – ancak bu, saniyede yalnızca nispeten yavaş 1,2 jeton üretti ve nispeten az ‘düşünme süresi’ temsil etti. Ve uygulama programlama arayüzü kullanımının nispeten ucuz maliyeti, geliştiricileri GitHub’ın Copilot’u yerine DeepSeek modelini kullanan kendi VSCode eklentilerini yazmaya yöneltti.

Bazı uzmanlar, bu tür tabandan benimsemenin – AI sistemlerinin yeteneğinden ziyade her yerde bulunmasında bir değişim – yapay genel zekaya doğru önemli bir adım olduğunu varsayıyor. Eğer durum buysa, DeepSeek’in modellerinin toplumsal ve güvenlik etkilerini anlamak hayati önem taşıyacaktır.

Yeni verimlilikler

DeepSeek-V3, uzmanların (MoE) mimarisini ve birçok mühendislik verimliliğini bir araya getirir. Bu mimari, eğitim yükünü hafifletmek için modeli matematik ve kodlama gibi çeşitli görevler için uzmanlaşmış daha küçük modellerden oluşan bir seçkiye böler. Mimari, 2020’de Google’ın GShard’ı ve Ocak 2024’te Mixtral LLM gibi makine çeviri dönüştürücülerinde yer aldı . DeepSeek, Ocak 2024’te MoE’ye yaklaşımı hakkında bir makale yayınladı ; bu, geçen yıl ortaya çıkan bu yaklaşımla ilgili bir dizi makaleden biriydi.

DeepSeek-V3, algoritmik verimliliğin ve kaynak optimizasyonunun önemini vurgulayan yakın zamanda yayınlanan birkaç Çin modelinden biridir. DeepSeek, kaba kuvvet ölçeklemesine güvenmek yerine, önemli ölçüde daha az kaynakla yüksek performansa nasıl ulaşılacağını göstermiştir. Bu, OpenAI’nin sonraki fiyat indirimlerinde ve şirketin kullanıcıların akıl yürütme belirteçlerine erişmesine izin verme yönündeki artan baskısında yansıtılmıştır.

31 Ocak’ta OpenAI, o3-mini akıl yürütme modelinin dağıtımıyla da yanıt verdi . Model, herhangi bir güvenlik kuralını göz ardı etmediğinden emin olmak için her akıl yürütme adımında bir dizi dahili politikanın gözden geçirilmesini içeren kasıtlı hizalamayı kullanır. Ancak OpenAI, akıl yürütme modellerinin tasarımcılarının kendilerine dayattığı bariyerleri aşmak için çoğu modelden daha iyi olduğunu kabul ediyor .

DeepSeek’in uygulaması Birleşik Krallık, ABD ve Çin’deki App Store listelerinin en üstünde yer aldığından , şirketin verimlilikteki atılımının daha geniş ticari ve politik çıkarımları olduğu anlaşılıyor. Bu, Çin’i yapay zeka yarışında yavaşlatmak için tasarlanan ABD CHIPS Yasası’nın istemeden de olsa inovasyonu teşvik etmiş olabileceğini gösteriyor. Birçok gelişmiş yapay zeka modelinde kullanılan en üst düzey çipleri üreten Nvidia, Ocak ayında piyasa değerinden yaklaşık 600 milyar dolar kaybetti .

DeepSeek-R1: Mantık

DeepSeek, denetlenen ince ayara ihtiyaç duymadan saf RL kullanarak muhakeme yeteneklerini geliştirmeyi ve kendi kendini geliştirmeye odaklanmayı amaçlamaktadır. V3 modeli (671B parametreleri) bir temel ve ölçeklenebilir grup göreli politika optimizasyonu RL çerçevesi olarak kullanıldığında, ortaya çıkan R1-Zero modeli muhakeme ve matematikte iyileştirmeler gösterdi ancak aynı zamanda zayıf okunabilirlik ve dil karıştırma gibi zorluklar da üretti.

R1-Zero modelinin performansı başlangıçta AIME 2024’te %15,6’dan %71,0’a yükseldi – bu da openAI-o1-0912 ile karşılaştırılabilir – DeepSeek’in RL’yi ayarlamak için çoğunluk oylamasını kullanmasından sonra %86,7 puan aldı. Şirket daha sonra birçok muhakeme ve matematik tabanlı değerlendirme görevi için OpenAI’nin o1 modeliyle eşit puanlar elde ettiği bildirilen R1 modelini üretmek için bazı denetlenen ince ayarları yeniden tanıttı.

DeepSeek’in R1 hakkındaki makalesinde gözlemlendiği gibi, RL, modeli akıl yürütme görevlerini çözmek için daha fazla jeton üretmeye teşvik eder. Süreç boyunca ve test zamanı hesaplaması arttıkça, yansıma ve alternatif yaklaşımların keşfi gibi davranışlar kendiliğinden ortaya çıkar. (Bazı uzmanlar, bir ara modelin antropomorfik bir ton kullanarak yeniden düşünmeyi öğrendiği noktayı tanımlamak için ‘aha anı’ terimini kullanır.)

R1 makalesindeki bir diğer gözlem ise DeepSeek’in dil tutarlılığını teşvik etmek için RL istemlerini tanıttığında modelin performansının düşmesi ve performansının kullanılabilirlik ve okunabilirlik ölçütlerine karşı feda edilmesidir. Makale, daha büyük modellerin akıl yürütme kalıplarının denetlenen ince ayar veri kümesi aracılığıyla nasıl küçük modellere damıtılabileceğini açıklayarak, bu damıtılmış sürümlerin modeldeki aynı RL sürecinden daha iyi performans gösterdiğini savunmaktadır. Umut, bu damıtmanın daha küçük, ancak yine de etkili modeller üretmek için üzerine inşa edilebilmesidir. Damıtılmış modellerin performansı, orijinal temel ölçütlerine kıyasla iyileşmiştir; R1-Distill-Qwen-32B ve R1-Distill-Llama-70B, kodlama ve matematiksel akıl yürütme içeren görevlerde OpenAI’nin o1-mini’sini geride bırakmıştır.

DeepSeek R1: Çoğaltma

25 Ocak’ta Hong Kong Bilim ve Teknoloji Üniversitesi’ndeki araştırmacılar, yalnızca 8k MATH örneği olan bir 7B modelinde uzun düşünce zinciri (CoT) ve öz-yansıma ile R1-Zero modelini yeniden yaratma girişimlerinin “karmaşık matematiksel akıl yürütmede şaşırtıcı derecede güçlü sonuçlar” elde ettiğini anlatan bir makale yayınladılar Temel model olarak Qwen2.5-Math-7B ile başladılar ve denetlenen ince ayar veya ödül modeli olmadan doğrudan üzerinde RL gerçekleştirdiler. Araştırmacılar, RL için grup göreli politika optimizasyonu yerine yakınsal politika optimizasyonunu kullanırken, daha küçük bir modelle ve büyük ölçekli bir RL kurulumu olmadan başlayarak DeepSeek’e biraz farklı bir yaklaşım benimsediler. CoT uzunluğunda ve ortaya çıkan öz-yansımada aynı artışı gözlemlediler. Ortaya çıkan model, MATH ölçütlerinde %33,3 AIME ve %77,2 elde etti (temel modelde sırasıyla %16,7 ve %52,4’ten yukarı). Bu , 50 kat daha fazla veri kullanan ve daha karmaşık bileşenler gerektiren Microsoft’un rStar-MATH modelinin performansıyla karşılaştırılabilir .

ABD şirketi Hugging Face, tam veri ve eğitim hattını yayınlamak amacıyla R1’i açık kaynaklı bir süreçte yeniden yaratıyor. Şirket, DeepSeek-R1’den yüksek kaliteli bir akıl yürütme gövdesi çıkararak R1-Sıfır modelini kopyalamayı, R1-Zero modelini oluşturmak için kullanılan saf RL hattını yeniden üretmeyi ve çok aşamalı eğitim yoluyla temel bir modelden RL ayarlı bir modele geçiş yeteneğini göstermeyi amaçlıyor.

Rekabet eden modeller

Tartışıldığı üzere, DeepSeek modelleri son haftalarda Çin’den çıkan tek önemli yenilikler değil. 22 Ocak’ta, TikTok’un arkasındaki şirket olan ByteDance, GPT-4o’dan daha iyi performans gösteren ve 50 kat daha ucuz olan Doubao-1.5 Pro modelini yayınladı . MoE ve performansı azaltılmış hesaplama talepleriyle dengeleyen oldukça optimize edilmiş bir mimari kullanıyor. Doubao, 60 milyon aktif kullanıcısıyla Çin’deki en popüler yapay zeka sohbet robotlarından biri. Şirket, zekayı iletişimle dengeleyen ve daha duygusal olarak farkında, doğal sesli etkileşimler üretmeyi amaçlayan yapay zeka modelleri oluşturmaya odaklanıyor. Doubao’nun yerellik duyarlı karma yoluyla iyileştirilmiş hızlı optimizasyon tekniklerini ve iletişim açısından verimli MoE eğitimini içermesi muhtemeldir . İkincisi, seyrek kapılı MoE modellerini eğitmede bulunan gecikme zorluklarını ele almayı ve 2,2 kat daha hızlı çıkarımlar sağlamayı amaçlamaktadır.

15 Ocak’ta iFlytek, tamamen yerli bir bilgi işlem platformu olan Spark Deep Reasoning X1’de eğitilen kendi derin muhakeme büyük modelini piyasaya sürdü. Sorun çözme sırasında ‘yavaş düşünme’ye benzer özellikler gösterirken, nispeten düşük bilgi işlem gücüyle “sektör lideri” olarak adlandırdığı sonuçlara ulaşıyor. Özellikle güçlü Çin matematiksel yeteneklerine sahip ve eğitim sektöründe akıllı bir öğretim asistanı olarak başarıyla uygulanmış durumda .

20 Ocak’ta, Çinli araştırma şirketi Moonshot AI , muhakeme görevlerinde o1’e eşdeğer performans (yani AIME’de %77,5 ve MATH’de %96,2) ve eğitim sonrası RL kullanımı bildiren Kimi k1.5’i yayınladı . Bildirildiğine göre, Kimi metin, kod ve resimler kullanan çok modludur. 128k’lık bir bağlam uzunluğuna sahiptir, bu da komut aracılığıyla bütün romanları okuyabileceği anlamına gelir. Basitleştirilmiş RL çerçevesi, keşif ve sömürüyü dengeleyerek, ayrıntılı yanıtlar üreten modeli cezalandırır. Kimi ayrıca, hem uzun hem de kısa CoT modellerinden gelen ağırlıkları harmanlayarak daha kısa ve daha hızlı yanıtları teşvik eder . Ocak ayı sonlarında, Qwen yeni bir model ailesi olan Qwen2.5-VL’yi yayınladı . Bu çok modlu modelin, daha iyi metin tanıma (el yazısı, çoklu diller ve tablolar dahil), iyileştirilmiş nesne algılama ve uzamsal muhakeme ve daha iyi aracı ve video işlevselliği gibi Qwen2’ye göre çeşitli avantajları vardır.

2 Şubat’ta OpenAI, “bir insanın saatlerce süreceğini onlarca dakikada başardığını” iddia ederek Deep Research’ü duyurdu . DeepSeek modellerinin yayınlanmasından sonra, bunun OpenAI’yi pazar hakimiyetini sürdürmek için bir sonraki sürümünü aceleye getirmeye zorlayacağı yönünde yaygın bir spekülasyon vardı. Bunun böyle olup olmadığını veya öyleyse model üzerinde bir etkisi olup olmadığını belirlemek için henüz çok erken.

Yapay zeka araştırmacılarının gözlemleri

Yapay Zeka araştırma topluluğunun üyeleri DeepSeek’in modelleri hakkında birkaç önemli gözlemde bulundu:

  • Daha küçük modeller, daha fazla gizlilikle, ücretsiz olarak yerel bir makinede çalıştırılabilir. Yakında Hugging Faceve Ollama aracılığıyla kurulabilirler .
  • R1 modeli kırılgan ve harekete geçirilmesi zor olabilir.
  • Muhakeme yeteneklerinin, cihazın kendisini jailbreak etmeye  yardımcı olmak için kullanılabileceği bildiriliyor ve aslında bir kullanıcının jailbreak yapması kolaydır .
  • Model, Çin Hükümeti’nin sansür uygulamalarıylailgili belirli konulardaki soruları yanıtlamayı reddediyor . Bu, V3 modeli için daha alakalı olabilir ancak R1’in modeli geliştirilmiş akıl yürütme için geliştirildiğinden, sansürün performansı etkilemesi olası değildir. (Model yerel olarak çalıştırıldığında sansür mevcut görünmüyor.)
  • V3 makalesinde açıklanan maliyetler konusunda bazı şüpheler var, DeepSeek V3 modelini eğitmek için yaklaşık 5,6 milyon dolar harcadığını belirtiyor. Ancak sunulan rakamların makul olduğuna dair öneriler de var. Scale.ai kurucusu Alexandr Wang, DeepSeek’in 50.000 H100 GPU’ya sahip olduğuna inandığını söyledi.
  • Benzer yaklaşımlar iki yıl önce modeller üzerinde denendi, ancak sonuçlar o kadar iyi değildi. Varsayım, temel modelin kalitesinin önemli bir faktör olduğudur.
  • RLCoT (RL aracılığıyla öğrenilen düşünce zinciri), yaklaşık 1,5 milyar boyutundaki modellere kadar gerçekleşmeyen ortaya çıkan davranış olarak kabul edilir. RL türü bunda çok fazla fark yaratmaz .
  • CoT iç diyaloğu genellikle kendinden şüphe duymakla doludur ve çok az güven sergiler, ancak model aşırı özgüvenli bir tonda cevap verir. Bu daha dürüst görünür ve sonuç olarak kullanıcının modele olan güvenini artırır.
  • Bu sistemlerin çoğu, daha iyi akıl yürütme için eğitim amacıyla veri kümeleri oluşturmaya veya bunları bir araya getirmeye yardımcı olmak için üretken YZ kullanıyor. Bu yaklaşımın, LLM tarafından üretilen materyal üzerinde çalışan LLM’lerin eğitiminin aynı bozulmasından muzdarip olup olmayacağı şu anda belirsizdir.

 

Şekil 1: ChatGPT ve DeepSeek çıktılarının karşılaştırılması

Siyasi çıkarımlar

Birçok gözlemci, DeepSeek modellerinin Çin Hükümeti tarafından uygulanan sansürle ilgili belirli konulardaki soruları yanıtlamayı reddetmesi hakkında yorum yaptı . Ulusal güvenlik açısından bakıldığında, bu durum birçok endişeye yol açıyor, özellikle de çoğu kullanıcı Amerikan yanlısı bir LLM’den Çin Hükümeti yanlısı bir LLM’ye geçtiğinde risk profilinin nasıl değiştiği konusunda. Bu, kullanıcıların büyük bir kısmının gerçekleri üretmek için arama motorları yerine LLM’leri kullandığı durumlarda özellikle önemlidir (3 Şubat’ta oluşturduğumuz yanıtlar arasındaki tutarsızlığın bir örneği için Şekil 1’e bakın).

Siyasi yorumcular, DeepSeek-R1 modelinin piyasaya sürülmesinin Başkan Donald Trump’ın göreve başlama töreniyle aynı zamana denk getirildiğini ve bunun amacının ABD’nin yapay zeka sektöründeki algılanan hakimiyetini veya yeni Stargate projesinin etkisini zayıflatmak olduğunu öne sürdüler . Ancak, zamanlama Çin yeni yılından önce ürünleri piyasaya sürme telaşından kaynaklanıyor olabilir.

ABD ve Avustralya Hükümetleri, personel tarafından DeepSeek kullanımıyla ilgili endişelerini dile getirdiler ve ABD Donanması uygulamayı “güvenlik ve etik” gerekçelerle yasakladı. Bu arada İtalya, gizlilik gözlemcisi Garante’nin kişisel verilerin işlenmesine ilişkin soruşturmasını beklerken uygulamaya ülke çapında yasak getirdi. Araştırmacıların 1 milyondan fazla düz metin sohbet geçmişine erişmesine izin veren yakın tarihli bir veri ihlaliyle birleştiğinde , bu durum hızlı tempolu YZ ortamındaki veri işleme uygulamalarının endişe verici bir resmini çiziyor.

Beyaz Saray’ın yapay zeka ve kripto çarı David Sacks , yakın zamanda “DeepSeek’in burada yaptığı şeyin OpenAI modellerinden bilgiyi damıtmak olduğuna dair önemli kanıtlar var” dedi. OpenAI’nin öğretmen-öğrenci tehditlerini azaltıp azaltmayacağını ve eğer azaltacaksa bunu kullanılabilirliği etkilemeden nasıl yapacağını görmek ilginç olacak. (Son derece yetenekli, büyük bir ‘öğretmen’ modelinin daha küçük bir ‘öğrenci’ modelini yönlendirmek ve eğitmek için kullanıldığı bu tür tehditler genellikle bilgi damıtımı yoluyla uygulanır.) Ayrıca, OpenAI bu yolu seçerse daha kısıtlayıcı bir kullanım politikasının etkilerini görmek ilginç olacak, çünkü daha fazla insanı açık kaynaklı, Batı dışı alternatiflere itebilir. Alternatif olarak, böyle bir hareket sınır modeli manzarasını parçalayabilir ve hedef kitlelerine göre uyarlanmış silolanmış modellere yol açabilir. Gerçekten de, Open Euro LLM projesinin geliştirilmesiyle bununla ilgili bazı öneriler görüyoruz .

Çözüm

Diğer tüm model duyurularında olduğu gibi, DeepSeek’in ürünlerine ilişkin daha kapsamlı bir araştırma, ortaya koyduğu ölçüt ve istatistiklerin tutarlı olmasını ve adil (ve tekrarlanabilir) bir karşılaştırma sağlamasını garantilemek için gereklidir. Yine de R1 modelinin performansının çevrimiçi araştırma topluluğundaki bazılarını etkilediği görülmektedir. Erken değerlendirmeleri yapanlar, modelin genel yeteneğinden etkilenmiş görünüyor – bazıları için yanıtların hızı çok uzun olsa bile, özellikle görev uzun düşünce zincirleriyle sonuçlandığında.

Daha düşük eğitim ve çıkarım maliyetleriyle bu akıl yürütme modeli sürümlerinin akını, Çin’in veri (ve hesaplama) ölçekleme sınırlamalarına verdiği teknik yanıttır. Yeni Çin modelleri, açık kaynaklı literatüre dayanarak ve yakın zamanda yayınlanmış makalelerde izlenebilen birçok teknik kullanarak KISS (‘basit tut, aptal’) yaklaşımlarının ve akıllı mühendisliğin yenilikçi bir karışımını göstermektedir – ancak eğitim için kullanılan verilerin ayrıntıları belgelerde sinir bozucu bir şekilde eksiktir.

Matematik ve kodlamayı (akıl yürütme yoluyla) geliştirmeye odaklanmak, gelecekteki etken yaklaşımları destekleyebilir. Gerçekten de, 2025 bazen etken yılı olarak lanse edilmiştir. Ancak bu değerlendirmelerin otomatikleştirilmesi nispeten kolaydır: doğru matematik cevapları kesindir; birim testli kodlama görevleri de kolayca otomatikleştirilebilir ve bu nedenle RL tipi yaklaşımlar için daha uygundur.

Ancak, basit RL’nin modellerin nispeten küçük veri kümeleriyle (örneğin 8k MATH) becerilerinin geliştirilmesine izin verdiği düşünülürse, küçük modellerde başka hangi beceriler geliştirilebilir? Bu teknik yalnızca geçme/kalma veri kümeleri için mi etkili? Yoksa örneğin, bir modelin hikaye yazımında daha yaratıcı olması için becerilerinin geliştirilmesi benzer getiriler mi üretir?

Kullanılan teknoloji ve eğitimin gerçek maliyetleri hakkında daha fazla kesinlik olmadan, DeepSeek hakkında doğru ve güvenilir sonuçlara ulaşmak zordur. Bu ilginç bir araştırma sorusu ortaya çıkarır: Eğitim sırasında kullanılan geliştirme hattı ve veri kümeleri hakkında içgörüler elde etmek için yayınlanmış bir model kullanılabilir mi?

DeepSeek modelleri etkileyici olsa da, yetenekte bir adım değişikliği sağlamak yerine daha az maliyetle aynı şeyi yaparlar. Kullanıcılar artık modelleri çok daha verimli bir şekilde eğitebilirler, ancak bu, daha önce mevcut olanlardan önemli ölçüde daha iyi bir modele erişebilecekleri anlamına gelmez.

Bu makalede ifade edilen görüşler yazarlarına aittir ve Alan Turing Enstitüsü’nün veya herhangi bir başka kuruluşun görüşlerini temsil etmemektedir.

https://cetas.turing.ac.uk/publications/chinas-ai-evolution-deepseek-and-national-security

 

 

 

Scroll to Top