YZ Güvenliği Paris’te Giyotinle Karşılaştı. İyi Kurtuluşlar.

Mark MacCarthy / 24 Şubat 2025

10-11 Şubat tarihlerinde, Fransa Cumhurbaşkanı Emmanuel Macron Paris’te bir YZ Eylem Zirvesi düzenledi. Bu, sınır YZ modellerinin küresel yönetimi konusunda bir fikir birliği arayan üçüncü büyük uluslararası konferanstı.

Yapay zeka düzenlemesi karşısında yapay zeka inovasyonunun sözde zaferi medyada en çok yer alan haber oldu. Ancak bu hikayenin bir parçası olsa da, asıl haber bu değil. Paris konferansının gerçek kalıcı sonucu, yapay zekanın sözde varoluşsal risklerini bir kez ve herkes için marjinalleştirme fırsatıdır.

Bu gelişmeyi anlamak için, Mart 2023’te Yaşamın Geleceği Enstitüsü’nün yapay zeka laboratuvarlarından “dev yapay zeka deneylerine ara vermelerini” isteyen açık bir mektup yayınlamasına geri dönelim. Canlandırıcı endişe şuydu: “Sonunda sayıca üstün olabilecek, bizden daha akıllı olabilecek, modası geçebilecek ve yerimizi alabilecek insan olmayan zihinler mi geliştirmeliyiz? Medeniyetimizin kontrolünü kaybetme riskine girmeli miyiz?” O yılın Mayıs ayında, yüzlerce önemli kişi yapay zeka riskiyle ilgili “Yapay zekadan kaynaklanan yok olma riskini azaltmak, pandemiler ve nükleer savaş gibi diğer toplumsal ölçekli risklerin yanı sıra küresel bir öncelik olmalıdır” iddiasında bulunan tek cümlelik bir bildiriye imza attı.

Bu, insan ırkının yok olmasını önlemek için yapay zeka gelişimini yavaşlatmak için açık bir çağrıydı. Politika yapıcılar bu bilimkurgu korkularını doğrularken görülmekten utanıyorlardı, ancak onları tamamen reddetmekten de korkuyorlardı. Bu yüzden, ulusal güvenlik, siber güvenlik ve dezenformasyonla ilgili gerçek yapay zeka modeli risklerinden bahsetmenin ve yapay zeka felaket tellallarını yatıştırmanın bir yolu olarak “yapay zeka güvenliği” terimini benimsediler.

Ancak “AI güvenliği” ifadesi her zaman AI’nın insan kontrolünden çıkmasını ve insan ırkının varlığını tehdit etmesini önlemeyi çağrıştırmıştır. Kasım 2023’teki Bletchley Park AI Güvenlik Zirvesi, AI güvenliğine önemli ölçüde odaklandı ve çıktı belgesi, günümüz AI modellerinin “insan niyetiyle uyumla ilgili kontrol sorunları” ortaya çıkardığı ve “felaket” zarar tehdidinde bulunduğu konusunda özel olarak uyardı. Mayıs 2024’teki Seul AI Zirvesi, neredeyse diğer tüm AI endişelerini dışlayarak AI güvenliğine olan bu vurguyu sürdürdü.

Formun Altı

Ancak Paris AI konferansı bu uçuk riskleri büyük ölçüde görmezden geldi. ABD Başkan Yardımcısı JD Vance, katılımcıları “AI geleceğinin güvenlik konusunda endişelenerek kazanılmayacağı” konusunda uyardı . Konferansın son açıklamasının açıkça belirttiği gibi, öncelik “AI’daki yeniliğin, gelişimi için koşulları sağlayarak gelişmesini sağlamaktı.” ABD ve İngiltere, bu belgeyi imzalayarak spekülatif AI risklerinin marjinalleştirilmesini pekiştirebilirdi. Bunu yapmamayı seçtiler ve bu kaçırılmış bir fırsattı.

Financial Times’ın bildirdiğine göre, varoluşsal riskleri azaltmak AI güvenliği savunucularını öfkelendirdi . Bilgisayar biliminin önde gelen profesörlerinden Stuart Russell, “Güvenlik olmadan inovasyon yapamazsınız.” dedi. 2023 açık mektubunu düzenleyen Yaşamın Geleceği Enstitüsü’nün başkanı Max Tegmark, Bletchley’de çok ümit verici bir şekilde başlatılan varoluşsal AI risklerini ele alma sürecinin Paris’te “gilotinle” edildiğinden şikayet etti.

Ancak spekülatif AI risklerinden dikkati uzaklaştırmak tamamen iyidir. Bunlar her zaman gelişmiş YZ sistemlerinin oluşturduğu gerçek ve acil risklerden bir dikkat dağıtıcı olmuştur. YZ araştırmacıları yıllardır YZ temel modellerinin model düzeyinde yönetilmesi gereken ciddi yeni riskler yarattığı konusunda uyardılar . Bunlara şunlar dahildir: kimyasal veya biyolojik silahların uzman olmayan kişiler tarafından geliştirilmesi, çok modlu dezenformasyonun üretilmesi ve dağıtılması ve benzeri görülmemiş saldırgan siber güvenlik zorlukları.

2023’ün sonlarında hem İngiltere’de hem de ABD’de kurulan AI Güvenlik Enstitüleri bu gerçek risklere odaklandı. Frontier AI laboratuvarlarıyla yapılan gönüllü düzenlemeler kapsamında, 2024’ün sonlarında OpenAI’nin o1 modeli ve Anthropic’in Claude 3.5 Sonnet modelinin yetenekleri ve risk azaltma önlemlerinin ön dağıtım değerlendirmeleri de dahil olmak üzere en son modellerin bilgilendirici ortak değerlendirmelerini yayınladılar. Ancak isim, birçok kişiye bu enstitülerin varoluşsal risk konusunda endişe kaynağı olduğunu düşündürdü.

Paris konferansından sonra, İngiltere hükümeti, kamuoyu algısının gerçek risklere odaklanmasıyla uyuşmasını sağlamak için YZ test ajansının adını değiştirdi . Yeni isim? YZ Güvenlik Enstitüsü. İngiltere hükümeti, “Bu yeni isim,” diye açıkladı, “teknolojinin kimyasal ve biyolojik silahlar geliştirmek için nasıl kullanılabileceği, siber saldırılar gerçekleştirmek için nasıl kullanılabileceği ve dolandırıcılık ve çocuk cinsel istismarı gibi suçları nasıl mümkün kılabileceği gibi güvenlik etkileri olan ciddi YZ risklerine odaklanmasını yansıtacak.” Duyuruya, CEO’su Dario Amodei’nin şirketinin “YZ yeteneklerini araştırmak ve değerlendirmek için İngiltere YZ Güvenlik Enstitüsü ile yakın bir şekilde çalışmaya devam edeceğini” söylediği Anthropic ile yeni bir anlaşma eşlik etti.

Bu yeni isim ve yönelimin, bazılarının iddia ettiği gibi algoritmik önyargıya daha az dikkat edilmesi anlamına gelip gelmediğini göreceğiz. Önyargının varoluşsal riskle birlikte aşağı çekilmesi talihsizlik olacaktır. Bu, iş kullanıcılarının başa çıkması için aşağıya itilmek yerine model düzeyinde ele alınması gereken gerçek bir YZ riskidir. Herhangi bir YZ test enstitüsü tarafından değerlendirilmesi gerekir.

Dolayısıyla, Paris’ten çıkan gerçek hikaye, YZ düzenlemelerinin sona ermesi ve YZ inovasyonuna dikkatsizce hücum edilmesi değil, gerçek YZ risklerinin değerlendirilmesine ve azaltılmasına yeniden odaklanılmasıdır. YZ şirketlerinin, YZ modellerinin gerçek, öngörülebilir risklerini değerlendirme ve azaltma konusundaki sıkı çalışmalarını sürdürmelerini sağlamak için hangi isim altında olursa olsun YZ test kurumlarına ihtiyaç vardır. İzlenmesi gereken bir sonraki şey, ABD YZ Güvenlik Enstitüsü’nün Trump Yönetimi’nin Biden Yönetimi’nin YZ politikalarını gözden geçirmesinden sağ çıkıp çıkmayacağıdır.

https://www.techpolicy.press/ai-safety-met-the-guillotine-in-paris-good-riddance/