STANFORD Üniversitesi Yapay Zekâ Endeks Raporu 2024

M. Nilgün Ercan

Stanford Üniversitesi -İnsan Odaklı Yapay Zekâ Enstitüsü tarafından yayımlanan “Yapay Zekâ Endeks Raporu 2024” yapay zekâ ile ilgili farklı boyutlara değinen kapsamlı bir rapor;  bir başvuru kaynağı olarak değerlendirilebilecek olan yayın Ar-Ge, Teknik Performans, Sorumlu YZ, Ekonomi, Bilim ve Tıp, Eğitim, Politika ve Yönetişim, Çeşitlilik ve Kamuoyu Görüşü başlıkları altında yer alan dokuz bölümden oluşuyor.

2023 yılına ait verilerin değerlendirildiği Rapor, yukarıda belirtilen alanlarda yapay zekâ ile ilgili gelişmeleri ve üretilen modellerin performansına ilişkin saptamaları içermekte; Rapor’ da yer alan başlıca hususlara değinmek YZ’ nin bilim, ekonomi, toplumsal yaşam üzerinde giderek artan etkisi konusunda da önemli fikir veriyor.

Araştırma ve Geliştirme

2023 yılında %65,7’si açık kaynak olmak üzere toplam 149 temel model geliştirildi. YZ alanındaki Ar-Ge faaliyetinde endüstri tarafı hâkim durumda. 2023 yılında akademi 15 makine öğrenimi modeli üretirken bu sayı endüstri kesiminde 51 oldu. Endüstri-akademi arasındaki iş birliğinin sonucunda ise 21 model oluşturuldu.  Bu noktada önemli bir saptama yapmak gerekiyor; en ileri modelleri geliştirmek için yüklü miktarda veri, enerji ve finansal kaynak gerek; akademi ise genel olarak bu koşullara sahip değil.

Aynı yıl içinde ABD merkezli kuruluşların geliştirdiği model sayısı 61 iken bu sayı AB için 21, Çin için 15 oldu. YZ patentlerinde ise durum farklı gerçekleşti: 2022 yılında küresel YZ patentlerinde Çin’in payı %61,1 iken ABD’nin payı %20,9 oranında kaldı.

2010 yılında YZ ile ilgili yayınlar 88 bin iken bu sayı neredeyse üç katı artarak 2022 yılında 240 bine yükseldi. Yayınların sektörlere ve ülkelere göre dağılımı Şekil 1’de verilmekte olup, yayınlarda eğitim dünyasının açık ara ile başı çektiği görülüyor.

Şekil 1: 2022 yılında toplam YZ yayınlarının sektör ve bölgelere göre dağılım yüzdesi. Kaynak: Stanford Üniversitesi AI Index Report 2024’ten alındı
Teknik performans

Yapay zekâ, imaj sınıflandırma, görsel sonuç çıkarma, İngilizce anlama gibi bazı konularda insan performansını geride bırakmış olsa da yarışma seviyesindeki matematik, görsel olarak sağduyuya dayalı akıl yürütme ve planlama gibi bazı kompleks alanlarda hala yeterli değil. Bununla birlikte, ilerlemeler sonucunda Gemini ve GPT-4 gibi görüntü, metin ve hatta sesi işleyebilen çok modlu modeller geliştirilmiş durumda.

İngilizce anlama konusunda yapay zekada önemli ilerlemeler oldu. Ancak geliştirilen modellerde hala halüsinasyon (doğru olmayan cevap, yanlış bilgi) olması mümkün. Özellikle hukuk ve tıp gibi kritik alanlarda yanlışlık önem kazanıyor. 2023 yılında HaluEval ile büyük dil modellerindeki (LLM) halüsinasyonların neden kaynaklandığını değerlendirecek bir tasarım ortaya kondu. 35 bin cevabın değerlendirilmesi neticesinde ChatGPT’nin, cevaplarında dil, iklim, teknoloji konularında %19,5 oranında doğrulanamaz bilgi imal ettiği sonucu çıktı. Yapılan çalışmalar halüsinasyonun sürmekte olan önemli bir sorun olduğunu gösterdi.

Muhakeme performansı

Rapor’ da, YZ modellerinin dil ve görsel muhakeme konusundaki yeteneklerinin gelişmiş olmasına karşılık ahlaki/etik muhakeme konusundaki kapasitelerinin henüz yeterince ilerlemediği saptanıyor. Son yıllarda metin üzerinden akıl yürütme için SQuAD ve görsel muhakeme için VQA gibi geleneksel tasarımlar doygunluğa erişmiş olsa da hala aşılması gereken zorluklar var. ABD ve Kanada’dan araştırmacılar MMMU ( the Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark) testi geliştirdi. MMMU altı temel disiplinden (sanat ve tasarım, iş dünyası, bilim, sağlık ve tıp, beşerî ve sosyal bilim, teknoloji ve mühendislik) 11 500 civarında yüksek okul seviyesinde sorudan oluşuyor. Sorular şema, harita, tablolar, kimyasal yapılar gibi formatları içeriyor. MMMU bugüne kadar YZ alanında kavrayış, bilgi ve muhakeme konusunda en ileri testlerden birisi. Performansı en yüksek model, tüm kategorilerde toplam %59,4 ile en yüksek skoru elde eden Gemini Ultra oldu. Tablo 1’ de yer aldığı gibi, birçok kategoride modeller ortalama uzman seviyesinden uzakta kaldı.

Ahlaki muhakeme konusunda hiçbir model insani ahlak sistemi ile tam uyum sağlayamadı. Bununla birlikte daha büyük modeller küçüklere göre daha fazla performans gösterdi. GPT-4 en yüksek uyumu sağladı.

Teknik performans kapsamında, YZ modellerinin çevresel etkilerine ilişkin olarak salımlar konusunda daha fazla şeffaflık gerektiği, görsel üretimin metin sınıflandırmasına göre karbon ayak izinin daha fazla olduğu gibi saptamalar Rapor’da yer aldı.

Tablo 1 : MMMU: Konu özelinde doğruluk. Kaynak: MMMU, 2023 | Stanford Üniversitesi AI Index Report 2024’ten alındı. *Modellerin müelliflerinden elde edilen veriler
Sorumlu Yapay Zeka

Yapay zekanın bir diğer yüzü de ortaya çıkardığı riskler ve tehlikeler. Başlıca YZ modellerinin riskleri ve sınırları sistematik olarak OpenAI, Google, Anthropic gibi önde gelen geliştiriciler tarafından test ediliyor. Siyasal sahtekarlık (deepfake) içeren bilgilerin üretilmesi kolay ama tespit edilmesi zor. Halihazırda tüm dünyada YZ kullanarak yapılan siyasal sahtekarlık seçimleri etkiler düzeye gelmiş durumda. Buna karşı bu tür sahtekarlığı saptama yöntemleri de araştırılıyor. CounterCloud gibi yeni projeler YZ ile sahte içerik yaratma ve yaymanın ne kadar kolay olduğunu ortaya çıkarıyor.

YZ’den kaynaklanan riskler tüm iş dünyası için bir sorun durumunda. Küresel bir araştırmanın sonucunda firmaların YZ konusundaki en başta gelen kaygılarının özel alan, güvenlik ve güvenilirlik olduğu ortaya çıkıyor. YZ’nin, telif hakkı düzenlemelerini de kapsayacak şekilde yasal süreçleri çiğneyebilecek sorunlar yaratabileceği düşünülüyor.

YZ geliştiriciler için, özellikle test verileri ve yöntemleri konusunda şeffaflık gerektiği vurgulanıyor. YZ ‘nın yanlış kullanımına ilişkin olaylar 2013 yılından beri neredeyse 20 kat artmış olup, 2023 yılında 123 vaka tespit edildi. ChatGPT ‘nin politik olarak, ABD’de Demokratlar, İngiltere’de İşçi Partisi’ne karşı ön yargılı olduğunun araştırmacılar tarafından saptanması da dikkate değer bir konu. Bu durum özellikle seçim dönemlerinde kullanıcıların politik terchlerini yönlendirmesi açsısından önemli bir risk oluşturuyor.

Bilim ve Tıp

YZ uygulamaları bilim ve tıp alanındaki ilerlemeyi hızlandırıyor.  Organik moleküllerin sentezlenmesi amaçlı YZ odaklı robotik kimyacı Synbot sisteminin, hava, sel tahminlerine yönelik modellerin yanı sıra tıpta teşhis, klinik bilgi gibi alanlarda da YZ temelli modeller geliştirildi. 60 enstitüden 119 bilim insanının oluşturduğu İnsan Pangenom Araştırma Konsorsiyumu 2023 yılında YZ’ yı kullanarak güncellenmiş ve temsil özelliği daha iyi bir genom haritası geliştirdi.

GNoME modeli ile yeni malzemelerin araştırılması kolaylaştırıldı. Yeni fonksiyonel malzemelerin bulunması ile robotik ve yarı iletkenler gibi çeşitli bilim alanlarında ilerlemeler sağlanacak. Söz konusu model ile çoğu araştırmacılar tarafından gözden kaçırılan 2,2 milyon yeni kristal yapı açığa çıkarıldı.

Şekil 2. Malzeme yapılarından örnekler Kaynak: Merchant ve diğerleri – Stanford Üniversitesi AI Index Report 2024’ten alındı.

Tıp alanında pandemiyi önceden tahmin etmek için EVEscape, hangi mutasyonların iyi huylu, hangilerinin hastalıklara neden olduğunu ortaya çıkarmak için yeni bir YZ modeli olan AlphaMissence, YZ’ nin klinik bilgisini değerlendirmek için  MedQA testi geliştirildi. 2012 yılından beri FDA tarafından onaylanan YZ bağlantılı tıbbi cihazların sayısı 45 katından fazla arttı;  sadece 2022 yılında FDA YZ bağlantılı 139 cihaza onay verdi.

YZ ile ilgili düzenlemeler artıyor

YZ’nin uygulama alanlarının genişlemesi beraberinde YZ ile ilgili düzenlemelerin artmasını  da getiriyor. Stanford’un hazırladığı Rapora göre 2016-2023 yılları arasında YZ ile ilgiliolarak yapılan düzenlemelerde ABD’ nin başı çekmekte olduğu görülüyor (Şekil 3). Bu düzenlemelerin bir bölümü, örneğin bir ülkenin YZ kapasitesini arttırmak gibi YZ’ yi genişletici  yönde iken bir kısmı kısıtlayıcı yönde kurallar getirebiliyor; bir bölümünün içeriği ise iki durumu da kapsıyor.

Şekil 3. Seçilmiş ülkelerde 2016-2023 yılları arasında yasalaşan YZ bağlantılı yasa tasarılarının sayısı Kaynak: Stanford Üniversitesi AI Index Report 2024’ten alındı

ABD’de düzenleme konularında geçmişten beri ekonomi ve kamu finansmanı başı çekerken, 2023 yılında ulusal güvenlik, sivil haklar, azınlıklar, ticaret, eğitim, çalışma ve istihdam, bilim, teknoloji ve iletişim alanlarına ilişkin ikişer düzenleme hayata geçti.  AB’ de ise bilim-teknoloji-iletişim konuları başı çekerken, bunu kamu faaliyetleri ve politikaya ilişkin konular ile ekonomi ve kamu finansmanı takip ediyor.  İlk olarak 2017 yılında Kanada‘nın Ulusal Stratejisini yayınlamasıyla başlayan süreçte 2023 yılı sonuna kadar 75 ülke YZ ile ilgili Ulusal Stratejilerini yayınlamış durumda.

Resim 1. Bilim ve tıpta yapay zekâ kullanan fütüristik bir dünya görüntüsü için Microsoft’un Copilot uygulaması tarafından üretilmiştir.
Kamuoyunun Görüşleri

Küresel boyutta YZ’ nın potansiyel etkileri konusunda insanlar daha bilinçli ama daha endişeli. Bir piyasa araştırma ve danışmanlık şirketi olan Ipsos tarafından yapılan araştırmaya göre, YZ’ nin önümüzdeki 3-5 yılda yaşamlarımızı çarpıcı şekilde etkileyeceğini düşünenlerin oranı bir önceki yıl %63 iken 2023’te %66’ya yükseldi. 2023 yılında 31ülkeden 16-74 yaş arası 22 816 kişi ile YZ ürün ve hizmetlerine yönelik olarak yapılan araştırma yaş grupları ile ülkelere bağlı olarak YZ’ ye bakışta farklılıklar gösterdi. YZ ürün ve hizmetlerini yararlı görenlerin oranı Endonezya’ dan katılanlarda %78, Tayland için %74, Meksikalı katılımcılar için %73 oldu. Buna karşılık Amerikalıların sadece %37’si bu görüşe katıldı. 31 ülke arasında en şüpheci bakış açısı ABD ve Fransa’dan geldi. Bununla birlikte, ABD dahil, Almanya, Hollanda, Belçika, Kanada, Avustralya gibi ülkelerdeki bakış açısının 2022 yılı araştırmasına kıyasla 2023 yılında daha pozitif olduğu görüldü.

Kamuoyu YZ’ nin ekonomi üzerindeki etkisi konusunda kötümser görünüyor. YZ’ nin ekonomiyi canlandıracağını düşünenlerin oranı %34’ te, iş piyasasını geliştireceğini düşünenlerin oranı ise %32’ de kaldı.

Araştırmayı yanıtlayanların %57’si önümüzdeki beş yılda YZ’ nın iş yapma yöntemlerini değiştireceğini düşünürken, %36’sı aynı süre içinde yaptıkları işlerin yerini YZ’ nin alacağını belirtti.  Japonya, İsveç ve ABD’den katılanlar YZ’ nın geçim koşulları üzerindeki etkisi konusunda kötümserken, Endonezya, Meksika ve Brezilyalı katılımcılar daha iyimser yaklaşım ortaya koydu. YZ’ nin eğlence, sağlık, ekonomi konularında getireceği yeniliklere genç jenerasyon ile yüksek gelirli, yüksek eğitim seviyesi olan kesimler daha iyimser bakmakta.

Küresel ölçekte, YZ çirkin amaçlı kötüye kullanımından (%49), iş olanakları üzerindeki etkisinden (%49) yurttaşların özel alanlarını ihlal etme potansiyelinden (%45) endişe ediliyor. Buna karşılık, araştırmaya katılanların YZ’ ye erişimde eşitsizlik (%26), YZ’ nin önyargı ve ayrımcılık yaratma potansiyeli (%24) ve kendilerinin YZ’ yı kullanma becerileri (%22) gibi konularda daha az kaygılı oldukları görülüyor.

Raporda yer alan tespitlere bazı eklemeler yapmak mümkün: Yapay zekanın yaşamı kolaylaştıracağını ileri süren ve gelişmelere pozitif yönde bakanların yanı sıra YZ uygulamalarının kullanımından ve sonuçlarından endişe duyanlar da var. Dijital teknoloji başta olmak üzere, teknolojik ilerlemelerin küresel boyutta hangi siyasal,  ekonomik ve toplumsal koşullarda gerçekleştiği ve hangi etkilerinin ortaya çıkacağı gibi sorular ve sorgulamalar önemli olsa gerek.

 

AI Index Report 2024 – Artificial Intelligence Index

 

 

 

Scroll to Top