‘Sıfır Atış’ Yapay Zeka’nın Klinik Tahminleri Neden Risklidir?

Suhana Bedi, Jason Alan Fries ve Nigam H. Shah / 7 Ocak 2026

Bilim insanları, gerçek hayattan alınan röportajlara dayanan bu üretken ajanların toplumun en zorlu sorunlarını çözebileceğini umuyor.

Artık bilim kurgu değil: Kişiliğiniz – inançlarınız, tuhaflıklarınız ve karar verme biçimleriniz – yapay bir zihin içinde yakalanıp hayata geçirilebilir. 

Stanford araştırmacıları, görüşmeler ve büyük bir dil modeli (LLM) kullanarak 1.052 bireyin kişiliklerini etkileyici bir doğrulukla simüle ettiler. Bu sanal ajanlar, gerçek hayattaki karşılıklarını yansıtan şekilde soruları yanıtlayan ve kararlar alan kişilikler sergiliyorlar.

 Stanford’da bilgisayar bilimi yüksek lisans öğrencisi ve projenin baş araştırmacısı Joon Sung Park , “Gerçek insanlardan oluşan bu açık uçlu ajanları yaratabilmemiz oldukça şaşırtıcı görünüyor,” diyor . Ancak bunu, iyi bir arkadaşın veya belki de bir terapistin belirli bir kişinin sorulara nasıl cevap vereceğini tahmin edebilmesine benzetiyor.

“Dil modeli, az önce görüştüğü kişinin rolünü üstlenmeye çalışıyor,” diyor. Görüşme metnine ek olarak, ajan, LLM’ye yerleştirilmiş tüm psikolojik ve sosyal bilim uzmanlığına da güveniyor. “Bu çok güçlü bir kombinasyon.”

Park, ArXiv ön baskı sunucusunda yayınlanan çalışmanın, deepfake videolar, bireylerin benzerliklerinin ele geçirilmesi ve insanların arkadaşlarının veya akrabalarının yapay zekâ versiyonlarıyla sohbet ettiği bir dünya hakkında tamamen haklı endişelere yol açabileceğini belirtirken  , kendisi ve ekibi bu tür kullanımları önlemek için önlemler almış durumda.

HAI’ye bağlı öğretim üyeleri  Michael Bernstein ,  Robb Willer ve  Percy Liang’ın yanı sıra Northwestern Üniversitesi, Washington Üniversitesi ve Google DeepMind’dan öğretim üyeleri ve personelin de yer aldığı bu araştırma ekibi için bu ajanların değeri övgüye değer: İklim krizini çözmekten bir sonraki küresel salgını önlemeye kadar politika önerilerinin etkilerini incelemek için bir test ortamı olarak kullanılacak gerçekçi bir üretken ajan popülasyonu oluşturmak.

Park, “Bu tür ajanların gelecekteki birçok politika oluşturma ve bilimsel çalışmaya güç vereceğini düşünüyoruz,” diyor.

İnandırıcılıktan Doğruluğa

Bir yıl önce, Park ve meslektaşları inandırıcı üretken yapay zekâ ajanları yaratma konusunda ilk denemelerini yaptılar. 25 üretken yapay zekâ ajanının her birine bir paragraf uzunluğunda kurgusal bir biyografi atadılar ve onları sanal bir ortamda serbest bıraktılar.  Daha önceki bir HAI makalesinde açıklandığı gibi , ajanlar birbirleriyle inandırıcı şekillerde etkileşim kurdular: İşe gittiler, yemek hazırladılar, parti planladılar ve belediye başkanlığına kimin aday olduğunu tartıştılar.

Ancak Park’a göre, güvenilir sosyal bilim araştırmaları inanılırlıktan daha fazlasına ihtiyaç duyar. “Yeni bir politika tasarlıyorsanız, simülasyonlarınızın doğru olmasını istersiniz.”

Bu hedefe ulaşmak için araştırmacıların gerçek hayattan öykülere sahip geniş bir ajan popülasyonu oluşturmaları gerekiyordu. Ve bu popülasyonun yaş, ırk, cinsiyet, etnik köken, eğitim seviyesi ve siyasi ideoloji açısından ABD nüfusunu temsil etmesi gerekiyordu.

Ekip, bu kriterleri karşılayan 1.052 çalışma katılımcısını işe aldı ve onlarla görüşme yaptı. Görüşmelerin standartlaştırılması gerektiğinden (ve 1.000’den fazla görüşme, tek bir yüksek lisans öğrencisinin sağlayabileceğinden daha fazla zaman ve enerji gerektireceğinden), Park ve ekibi bir yapay zekâ görüşmecisi oluşturdu.

İki saat süren görüşmede katılımcılara hayat hikayeleri ve tartışmalı konular hakkındaki görüşleri soruldu; bireylerin önceki cevaplarına dayalı olarak ek sorular yöneltildi. Sonuç olarak, görüşme kayıtları 1052 üretken ajanın her birinin bilgisayar belleğine kaydedildi.

Ek olarak, ekip bir dil modelinden (LLM) görüşme metnini incelemesini ve her bir görüşülen kişinin kişiliğinin belirli yönlerini belirli bir uzman türünün (örneğin sosyal psikolog, ekonomist veya sosyolog) bakış açısından değerlendirmesini istedi. Örneğin, bir ekonomist bir kişinin temkinli veya risk alıcı olduğunu söyleyebilirken, bir sosyal psikolog kişinin dışa dönüklüğüne dikkat çekebilir. Park, “Temelde dil modelinden bu bireyler hakkında belirli fikirleri yakalamak için daha üst düzey bir sentez oluşturmasını istiyoruz” diyor. Bu sentez, üretken ajanların hafızalarına da eklendi.

Üretken Ajanların Doğruluğunu Test Etme

Çalışma katılımcılarının görüşlerinin ve kişiliklerinin üretken ajanlar tarafından doğru bir şekilde yakalanıp yakalanmadığını belirlemek için hem katılımcılara hem de ajanlara dört görev verildi:  Genel Sosyal Araştırma (GSS) kullanarak görüşleri, davranışları ve tutumları hakkında soruları yanıtlamak; bireyin kişiliğini değerlendirmek için tasarlanmış  44 maddelik Büyük Beşli Envanterini yanıtlamak ; beş bilinen davranışsal ekonomi oyununu (diktatör oyunu, güven oyunu, kamu malları oyunu ve mahkum ikilemi dahil) tamamlamak; ve beş sosyal bilim deneyine katılmak.

“Bunlar sosyal bilimlerde standart kabul edilen deneylerdir ve katılımcıların cevapları esasen bizim temel gerçeğimiz haline gelir,” diyor Park. “Ardından ajanlarımız, insanların bu kategorilerin her birinde ne söylediklerini tahmin etmeye çalışır.”

Katılımcılar görevleri iki hafta arayla iki kez yaptılar çünkü insanların tercihleri ​​sıklıkla değişiyor.

Ajanların doğruluk oranı etkileyiciydi: GSS’deki katılımcıların cevaplarını, katılımcıların iki hafta sonra kendi cevaplarını eşleştirme oranıyla %85 oranında eşleştirdiler. Ajanlar ayrıca kişilik testlerinde (%80 korelasyon) ve ekonomik oyunlarda (%66 korelasyon) da başarılı oldular.

Görüşmeye dayalı yapay zekâ ajanlarının GSS yanıtları, yalnızca katılımcıların demografik bilgilerini içeren veya her katılımcının kendisi hakkında yazdığı kısa bir paragraftan oluşan hafızaya sahip yapay zekâ ajanlarına göre daha doğruydu. Aslında, araştırmacılar görüşmeye dayalı yapay zekâ ajanlarının bu alternatiflerden yalnızca daha doğru değil, aynı zamanda daha az önyargılı olduğunu da gösterdi.

Park, “Görüşme verilerine sahip olmanın güzelliği, insanların kendine özgü özelliklerini içermesi ve bu nedenle dil modellerinin ırka dayalı genellemeler yapmaya daha az başvurmasıdır” diyor.

Riskler ve Faydalar

Stanford araştırma ekibi, üretken ajanların kötüye kullanımından haklı olarak endişe duyuyor. Park, “Bilim insanları olarak, bu konuda doğru sosyal standartları ve koruma önlemlerini belirlememiz önemli” diyor.

Park’ın belirttiğine göre, üretken bir ajan, bir kişinin kim olduğuna dair zengin bir hikaye anlatan yeni bir öz portre çekme yöntemi olarak düşünülebilir, ancak yine de hesaplamalı bir varlıktır. Bu nedenle, genomik verilerimiz gibi, temsil ettiği portrenin sahibi olan kişiye ait olmalı ve onun tarafından kontrol edilmelidir, diyor.

Bu nedenle, üretken ajanlar kamu kullanımına sunulmamaktadır. Bunları araştırma amaçlı kullanmak isteyen herkesin erişim için başvurması ve gizlilik korumasına ilişkin sıkı güvenceler vermesi gerekmektedir.

Ek olarak, ekip her temsilcinin kullanımına ilişkin bir denetim günlüğü oluşturdu. Bu, temsilciler tarafından temsil edilen kişilerin temsilcilerinin ne yaptığını görmelerini ve onlar üzerinde tam kontrol sahibi olmalarını sağlar. Kişiler ayrıca onaylarını geri çekme olanağına da sahiptir. Park, “Verilerinizin artık bu işe karışmasını istemiyorsanız, temsilcinizi çalıştığı tüm bağlamlardan kaldırabilmelisiniz” diyor.

Park, ekibin elinden gelenin en iyisini yaparak riski en aza indirgemek için doğru mekanizmaların devreye sokulmasını sağlamak istiyor, ancak nihayetinde doğru üretken ajanların potansiyel faydalarının risklerden daha ağır bastığını düşünüyor.

“Gerçekten de şu anda ele alamadığımız birçok toplumsal sorun olduğunu ve bu test platformuyla bunların çözümünün kolaylaştırılabileceğini düşünüyorum.”

Üretken ajanların böyle bir test ortamı olarak işlev görüp göremeyeceğini test etmek amacıyla yapılan ilk denemede, araştırma ekibi yapay zeka ajanlarına beş farklı sosyal bilim araştırma projesinin sonuçlarını tekrarlama görevi verdi. Ve tıpkı çalışma katılımcılarının kendileri gibi, ajanlar da beş çalışmanın dördünü tekrarladı. Park, “Bu somut kullanım durumlarını şimdiden destekleyebildiğimizin harika bir işareti” diyor.

“İklim değişikliği ve pandemi politikaları gibi karmaşık sorunlar, olası durumlara ilişkin çok karmaşık planlama ve akıl yürütme gerektiriyor,” diyor. “Simülasyon, bunlardan bazılarını nihayet çözme şansına sahip olabileceğimiz yollardan biri. Potansiyel faydası ise oyunun kurallarını değiştirecek nitelikte.”

 

https://hai.stanford.edu/news/why-zero-shot-clinical-predictions-are-risky

 

Scroll to Top