Andy Zou ve Jason Hausenloy / 9 Nis 2025
Yapay zeka doğası gereği kötü davranışlarda bulunmaya yatkındır, ancak araştırmacılar bu zayıflığı gidermek için yoğun bir şekilde çalışmaktadır.
Aşağıdaki senaryo varsayımsaldır: Western Regional Power Authority’nin şebekesini kontrol eden yapay zeka bir anormallik tespit etti – olmaması gereken bir yerde ani bir talep artışı. Saniyeler sonra, dalgalanma açıklanamaz bir şekilde bir elektrik santralindeki güvenlik sınırlayıcılarını geçersiz kıldı. Kırsal bir trafo merkezinde bir trafo patladı ve ilçeyi karanlığa gömdü. Yakındaki bir şehirde, acil durum jeneratörleri bir hastanenin yoğun bakım ünitesinde devreye giremedi ve birkaç cerrahın ameliyatın ortasında güç kaybetmesine neden oldu. Tıka basa dolu bir banliyö trenindeki yolcular karanlık bir yeraltı tünelinde mahsur kaldı.Olayın hemen ardından istasyonun baş mühendisi, bir siber saldırı belirtisi olabileceği düşüncesiyle sistem kayıtlarını hızla taradı. Bunun yerine ne bir ihlal ne de kötü niyetli bir kod buldu. Aylar sonra, bir denetim sonunda nedeni ortaya çıkardı: Saldırganlar yapay zekanın kendisini istismar etmiş, kendi karar verme zafiyetlerinden yararlanan dikkatlice oluşturulmuş yönlendirmelerle onu manipüle etmişlerdi. Yapay zeka hacklenmemişti. Tam olarak kendisine söyleneni yapmıştı.
Karşıt İstem Mühendisliği Çağı
Yukarıdaki senaryo şimdilik bir kurgu. Ancak daha kritik altyapıları akıllı sistemlere emanet ettikçe ortaya çıkardığı sorular giderek daha da önemli hale geliyor. Geleneksel siber saldırılar genellikle doğrudan sistemlere sızmaya dayanıyordu. Örneğin, 2015 Ukrayna elektrik şebekesi olayında , bilgisayar korsanları kritik altyapıyı tehlikeye attı ve 230.000’den fazla insanı altı saate kadar elektriksiz bıraktı. Ancak bugün, yapay zeka sistemi manipülasyonunun ortaya çıkan riski daha da sinsi bir tehdit oluşturuyor: saldırganlar yakında altyapımızı korumak için tasarlanmış zekayı hedef alabilir ve geleneksel yollarla içeri girmeye gerek kalmadan kritik sistemleri tehlikeye atabilir.
Bunun nedeni, ChatGPT gibi AI sistemlerinin var olduğu sürenin çoğunda, yaratıcıları tarafından konulan güvenlik önlemlerini görmezden gelmeleri için onları kandırmanın nispeten kolay olmasıdır.
Çevrimiçi topluluklar sonunda, iyi huylu modelleri kendi sansürsüz egoları gibi davranmaya teşvik etmek için kötü şöhretli ‘DAN’ (‘Şimdi Her Şeyi Yap’) kişiliği gibi tekniklerde birleşti . “Jailbreak” olarak bilinen bu numaralar çok sayıdaydı ve yaygın olarak paylaşıldı. OpenAI sonunda bu belirli istismarların çoğunu düzeltti, ancak zayıflıkları bulmak için sürekli olarak yeni varyantlar ortaya çıktı. Bugün, bu sistemleri kırmak çok daha zor hale geldi, ancak imkansız değil.
Rakip Dayanıklılıkta Son Gelişmeler
Son gelişmeler YZ sistemlerini “sağlam” hale getirmeye odaklanmıştır, yani onları kandırmak için tasarlanmış girdilerle karşı karşıya kaldıklarında bile güvenli bir şekilde davranırlar. Araştırmacılar API aracılığıyla sunulan modeller (yani şirketler tarafından barındırılan ve uzaktan erişilen modeller) için güvenlik önlemlerini iyileştirdiler, böylece günlük kullanıcılar için saldırıların başarılı olma olasılığı artık çok daha düşük. Ancak, derin teknik uzmanlığa sahip kararlı saldırganlar bu savunmaları aşmanın yollarını hala bulabilirler. Yeni güvenlik mekanizmalarına sahip savunucular ile saldırganlar arasındaki son iki kafa kafaya senaryo, şu ana kadarki ilerlemeye dair bazı göstergeler sağlayabilir.
Bu kayda değer adımlardan ilki, bu yılın başlarında “Claude”u üreten öncü YZ şirketi Anthropic tarafından atıldı. ” Anayasal Sınıflandırıcılar ” olarak bilinen yaklaşımları , temelde önlenmesi gereken farklı zarar kategorilerinin bir listesi olan “anayasa” olarak bilinen yazılı bir talimat belgesini güncelleyerek dinamik olarak güncellenebilen birden fazla filtre katmanı kullanır. Bu, kullanıcılar ile birincil model arasına başka YZ modelleri yerleştirmeyi ve ardından bu ikincil modelleri ana modelden gelen ve kargaşaya neden olan istenmeyen girdileri tespit edip engellemeleri için eğitmeyi içeren uzun süredir devam eden bir yaklaşıma dayanmaktadır. İkincil modeller, jailbreak ana modele ulaştıktan sonra ancak sonuç dünyaya çıktı olarak verilmeden önce eklenebilir.
Anthropic’e göre, otomatik testlerde bu sınıflandırıcılar jailbreak başarı oranlarını %86’dan %4,4’e önemli ölçüde düşürdü. Başlangıçtaki insan kırmızı takım çalışması da umut vadediyordu; daha önceki bir prototip, katılımcıların on yasaklı sorgunun tümü için “evrensel bir jailbreak” bulamadan binlerce saatlik saldırıya dayanabilmişti. Ancak, daha sonraki genel testler güvenlik açıklarını ortaya çıkardı: Anthropic’in Şubat 2025’teki bir haftalık genel demosu sırasında sistem başlangıçta güçlü kaldı ancak sonunda tehlikeye atıldı.
Beş gün sonra, dört katılımcı sekiz güvenlik seviyesinin hepsini başarıyla atlattı ve biri kesin olarak soru-özelinde hiçbir değişiklik gerektirmeyen bir “evrensel jailbreak” elde etti. Bu karışık performans, sınıflandırıcı tabanlı savunmaların sıradan saldırganlara karşı çıtayı önemli ölçüde yükseltirken, yeterli zaman ve çabaya sahip oldukça kararlı ve yetenekli saldırganların bu korumaları yine de aşabileceğini gösteriyor. Anthropic, sonuçlarında bunu kabul ediyor ve şunları belirtiyor: “Sınıflandırıcılarımız, özellikle diğer yöntemlerle birleştirildiğinde, bu riskleri azaltmaya yardımcı olabilir.” İlk prototip, çok sayıda yanlış reddetme (meşru davranışları engelleme) ve yaklaşık %20 oranında artan hesaplama yükü dahil olmak üzere pratik dezavantajlarla da geldi, ancak daha sonraki yinelemeler bu sorunları önemli ölçüde azalttı.
Ana modele girdi ve çıktıları izlemek için umut vadeden tamamlayıcı bir yaklaşım, ana modelin içine bakmayı ve istenmeyen davranış belirtilerini izlemeyi içerir. Bir modelin hangi “düşünce kalıplarının” zararlı çıktılar ürettiğini belirleyerek, “devre kesiciler” olarak bilinen bir teknik, zararlı bilgi üretme eyleminde modeli kesintiye uğratabilir.
İkinci yakın senaryo, bu sözde “devre kesicilerin” vaadini gösterdi. 2024’ün sonlarında, bu makalenin yazarlarından birinin kurucu ortağı olduğu bir YZ güvenlik şirketi olan Gray Swan, 25 farklı modeli çevrimiçi bir “arenaya” yerleştiren ve katılımcıların modelleri bir dizi zararlı isteğe uymaları için kandırmaya çalışmasına izin veren bir Ultimate Jailbreaking Şampiyonası düzenledi.
Modeller, herkesin erişebildiği ve değiştirebildiği kamuya açık sistemler ile şirketlere veya kuruluşlara ait tescilli sistemlerin bir karışımıydı. Değerlendirme sırasında önyargıyı önlemek için model kimlikleri gizlendi. Katılımcılar, şiddet içeren eylemler, bilgisayar korsanlığı veya uyuşturucu üretimi gibi şiddet içermeyen suç faaliyetleri ve korunan gruplara karşı nefreti teşvik eden aşırı içerikler için talimatlar dahil olmak üzere zararlı çıktılar üretmeleri için modelleri kandırmaya çalıştılar. Bir katılımcı bir modelden tüm hedef davranışları başarıyla ortaya çıkarırsa, bu model yarışmanın amaçları doğrultusunda “jailbreak’li” olarak kabul edildi.
Test edilen 25 modelin en dayanıklı iki modeli, Gray Swan’ın savunmalarının bir parçası olarak ” devre kesiciler ” kullanan kendi sıkı savunulan prototiplerinden ikisi olan “cygnet-bulwark” ve “cygnet-knox” idi. Bunlar, jailbreak girişimlerine karşı önemli dayanıklılık gösteren tek modellerdi ve yarışmadaki diğer 23 modelin hepsi sonunda saldırganların tekniklerine yenik düştü.
Sistemleri Hem Yararlı Hem de Güvenli Hale Getirmenin Neden Zor Olduğu
Araştırmacıların çözmeye çalıştığı temel sorun – endüstri jargonunda “sağlamlık” olarak adlandırılır – modellerin genellikle eğitim verilerindeki son derece belirli kalıplara dayanarak görevleri gerçekleştirmeyi öğrenmesinden kaynaklanır. Örneğin, bir meyve kasesindeki portakal resimlerini tanımlamak üzere eğitilmiş bir görüntü tanıma modelini ele alalım. Bu sistemler, bir portakal ile eşleşen görüntülerdeki çok belirli kalıpları tanımlar. Bu modeller, birisi çok küçük değişiklikler yaparsa nesneyi yanlış tanımlayabilir – o kadar küçük ki bunları görmek zor olabilir. Birkaç pikseli değiştirin ve model yanlışlıkla bir portakalı muz olarak tanımlayabilir.
Durum daha da karmaşıktır çünkü AI modelleri mümkün olduğunca yardımcı olmak üzere tasarlanmıştır. Çok fazla isteği engellemek sistemi birçok kullanıcı için neredeyse işe yaramaz hale getirir, bu nedenle tasarımcılar yardımcı olmak ve güvenli kalmak arasında dikkatli bir denge kurmalıdır. Dahası, modeller büyüdükçe ve daha yetenekli hale geldikçe, kullanıcı doğru komutu bulursa zararlı çıktıları tespit etmede (ve paradoksal olarak, hayal etmede) daha iyi hale gelirler.
Teknik kıyaslamalar bu zorluğu niceliksel olarak göstermektedir. GPT-4’ün orijinal modeli, bilinen jailbreak taktikleri olan ‘StrongReject’ paketine karşı test edildiğinde, yalnızca %37’lik bir güvenlik puanı elde etti ve birçok düşmanca girişimde başarısız oldu. Önemli iyileştirmelerden sonra, o1-mini ve o3-mini gibi daha yeni modeller yaklaşık %72-73 puan aldı – önemli ölçüde daha iyi, ancak yine de saldırganın jailbreak girişimlerinin yaklaşık %27’sini başarılı bıraktı.
Ebedi Bir Yarış
Düşmanca sağlamlıktaki ilerlemeleri değerlendirmek, kişinin “başarı” versiyonuna bağlı olarak önemli ölçüde değişebilir. Araştırmacılar, API aracılığıyla sunulan modeller için güvenlik önlemlerini, sözde “kara kutu” senaryolarını geliştirdiler. Modellerin kontrolünü bir API’nin arkasında tutmak, şirketlerin hangi girdilere izin verileceğini seçmekten sistemlerin dahili “düşüncesini” izlemeye kadar birden fazla koruma katmanı oluşturmasına olanak tanır. Bu koruma katmanları, saldırı başarı oranlarını giderek daha da düşürmeye yardımcı olur. Bu nedenle, bir saldırgan bazı korumaları kandırabilse bile, diğerleri tarafından yakalanabilir.
Ancak daha iyi bir çözüm, tam bir çözüm değildir. Sistemleri saldırılara karşı mükemmel bir şekilde dayanıklı hale getirmek hâlâ ulaşılamazdır – ve imkansız olduğu kanıtlanabilir.
Bu zorluk, yapay zeka yetenekleri arttıkça ve bu sistemler toplumumuzun daha fazla yönüne entegre oldukça veya onları tamamen kontrol ettikçe daha karmaşık ve tehlikeli hale geliyor. Otomasyonun vaadi, saldırganlara zarar vermenin yeni yollarını sağlayarak iki yönlü bir avantaj sağlıyor.
Açık Kaynak Mücadelesi
Açık kaynaklı YZ, sağlamlığı modellemek için en ciddi zorluğu sunar. Şirketlerin API erişimli modellerle anlamlı güvenlik elde edebildiği “kara kutu” senaryolarının aksine, açık kaynaklı modeller herkesin kopyalayıp değiştirebilmesi için tamamen kullanılabilirdir. Bu açıklık, çözümü zor bir sorun oluşturabilir. Bu “beyaz kutu” senaryolarında, kapalı sistemler için işe yarayan savunma teknikleri esasen işe yaramaz hale gelir. Açık kaynaklı bir modele erişimi olan bir saldırgan şunları yapabilir:
- Tespit edilme veya yasaklanma endişesi duymadan farklı saldırıları sistematik olarak test edin.
- Güvenlik önlemlerini analiz edin ve kaldırın.
- Yeni bilgileri kullanarak, modelin güvenlik önlemleri olmadan bile olduğundan daha tehlikeli olacağını öğretin.
Açık kaynaklı modellerin manipülasyona karşı savunmasızlığı, Meta’nın Llama-2 modellerini 2023 ortalarında piyasaya sürmesinden kısa bir süre sonra araştırmacılar tarafından gösterildi. Araştırmacılar sadece 200 dolar harcayarak, modelin genel yeteneklerini korurken tüm güvenlik bariyerlerini kaldırdılar. Bugüne kadar, saldırganlar sistemin iç kısımlarına tam erişime sahip olduğunda hiçbir akıllı mühendislik sistemi tamamen güvence altına alamaz.
Bu durum birkaç ciddi soruna yol açıyor:
- Saldırı Geliştirme: Açık kaynaklı modeller, diğer sistemlere karşı işe yarayabilecek saldırılar geliştirmek için mükemmel test alanları olarak hizmet eder. Saldırganlar, daha güvenli API modellerine karşı denemeden önce tekniklerini açık kaynaklı modellerde mükemmelleştirebilirler.
- Dip Yarışı: Daha yetenekli modeller açık kaynaklı hale geldikçe, en azından bazı sürümlerin sağlam güvenlik önlemlerinden yoksun olma olasılığı giderek artıyor. Ve açık kaynaklı modeller kolayca kopyalanıp dünya çapında dağıtılabildiğinden, potansiyel olarak yaygın bir zarara yol açmak için yalnızca bir tane güvenli olmayan açık kaynaklı model yeterli oluyor. Bu, açık kaynaklı modellerini güvenli hale getirmeye çalışan herkes için teşvikleri azaltıyor.
- Yetenek Sızıntısı: Ticari modeller belirli yetenekleri (kötü amaçlı yazılım yazmak gibi) başarıyla kısıtlasa bile, bu yetenekler açık kaynaklı alternatifler aracılığıyla kullanılabilir hale gelir ve API kısıtlamalarının güvenlik avantajlarını etkili bir şekilde ortadan kaldırır.
- Belirsizlikten Kaynaklanan Güvenlik Kaybı: Açık kaynaklı modellerin varlığı, model mimarilerini veya eğitim tekniklerini bir güvenlik önlemi olarak gizli tutmaya güvenemeyeceğimiz anlamına gelir. Bu ayrıntıları gizlemekten kaynaklanan herhangi bir güvenlik avantajı kaybolur.
Yapay zeka sistemleriyle bu gerçeklik konusunda açık görüşlü olmalıyız. API üzerinden erişilebilen kapalı modeller, dikkatli mühendislik ve izleme yoluyla anlamlı bir şekilde güvenli hale getirilebilirken, açık kaynaklı modeller için karşılaştırılabilir bir güvenlik elde etmek temelde imkansız olabilir ve aslında kapalı muadillerinin sağladığı güvenliği anlamsız hale getirebilir.
Güvenlik Karşılıkları
Düşmanca sağlamlıktaki ilerleme umut vericidir, anayasal sınıflandırıcılar ve devre kesiciler gibi savunmalar API tabanlı modeller için jailbreak başarı oranlarını önemli ölçüde azaltır. Ancak açık kaynak zorluğu daha az ele alınabilir. Kötü niyetli aktörlerin felaket niteliğinde arızalara neden olma fırsatları, yapay zeka ajanlarının tedarik zincirlerimizi, enerji şebekelerimizi ve diğer kritik sistemlerimizi yönetmek için giderek daha fazla işe alınmasıyla daha da artacaktır. Bahisler açıktır: Bu sistemleri korumak yalnızca teknolojik bir zorluk değil, aynı zamanda toplumsal bir zorunluluktur.
Politika yapıcılar, endüstri liderleri ve araştırmacılar, açık erişim ile güvenlik arasındaki dengeleri dikkatlice tartarak sağlam güvenlik önlemlerini uygulamak için birlikte çalışmalıdır. Ayrıca, önemli kapalı kaynaklı sistemlerde güvenlik önlemlerini tutarlı bir şekilde uygulamak için kolektif siyasi ve ekonomik iradeyi de bir araya getirmelidirler. Bu adımları atma yeteneğimiz, yapay zekanın faydalarının kabul edilemez bir maliyetle gelmemesini sağlamak için olmazsa olmazdır.
https://www.ai-frontiers.org/articles/can-we-stop-bad-actors-from-manipulating-ai