Uygulamada Yapay Zeka Güvenliği

Bu belge, yapay zeka (YZ) güvenliği konusunda pratik rehberlik sağlamak için tasarlanmış, Alan Turing Enstitüsü’nün “Yapay Zeka Etiği ve Yönetişimi Uygulamada Programı” serisindeki bir çalışma kitabıdır. YZ sistemlerinin performans, güvenilirlik, güvenlik ve sağlamlık gibi temel teknik güvenlik hedeflerini derinlemesine inceler. Kitap, kavramsal açıklamaların yanı sıra, kamusal sektördeki YZ projelerinde bu güvenlik hedeflerinin nasıl pratik olarak uygulanacağını gösteren risk değerlendirme ve yönetim şablonları ile pratik etkinlikler sunmaktadır. Amacı, YZ sistemlerinin güvenli ve etik bir şekilde tasarlanması, geliştirilmesi ve dağıtılması için ekiplere kapsamlı araçlar ve eğitim sağlamaktır.

Yapay Zeka Güvenliği Uygulamada: Kapsamlı Bir Değerlendirme

Bu brifing belgesi, Birleşik Krallık Araştırma ve Yenilik Stratejik Öncelikler Fonu (EPSRC Hibe EP/W006022/1) ve Alan Turing Enstitüsü tarafından desteklenen “Yapay Zeka Güvenliği Uygulamada” adlı yayından elde edilen temel temaları ve önemli bilgileri özetlemektedir. Belge, yapay zeka güvenliğinin çok yönlü doğasını, temel hedeflerini, ilgili riskleri ve yaşam döngüsü boyunca bu hedefleri sağlamaya yönelik pratik stratejileri ele almaktadır.

1. Yapay Zeka Güvenliğine Giriş ve Kapsamı

“Yapay Zeka Güvenliği Uygulamada” belgesinde, teknik olarak güvenli ve sürdürülebilir bir yapay zeka sisteminin dört temel hedefi karşılaması gerektiği belirtilmiştir: doğru ve performanslı, güvenilir, güvenli ve sağlam. Güvenliğin sağlanması zorlu ve devamlı bir görevdir, hem yapay zeka modelinin kendisini hem de modelin çalıştığı daha geniş sistemi göz önünde bulundurmayı gerektirir.

  • Modelin Yapay Zeka Güvenliği: Algoritmaların, mimarilerin ve parametrelerin teknik olarak sürdürülebilir ve güvenli olmasını sağlamaya odaklanır.
  • Sistemin Yapay Zeka Güvenliği: Modelin çalıştığı daha geniş bağlam (örn. çevresi, kullanıcıları ve diğer sistemlerle etkileşimi) göz önünde bulundurularak güvenlik hedeflerine ulaşılmasını sağlamaya odaklanır.

Belge, yapay zeka güvenliğinin “insan değerleri ve hedefleriyle uyumu sağlamak” veya “felaket veya varoluşsal zararları önlemek için yeteneklere sınırlamalar getirmek” gibi daha geniş, zaman zaman tartışmalı yorumlarından özellikle ayrışmaktadır. Bunun yerine, “Yapay Zeka Etiği ve Yönetişimi Uygulamada” serisi, yapay zeka güvenliği kavramını sosyo-teknik bir bakış açısıyla ele alır ve “teknik olarak güvenli yapay zeka sistemlerinin tasarlanması, geliştirilmesi ve dağıtılmasına yönelik fiili uygulamalarda korunması gereken belirli teknik özelliklere odaklanır.” Bu yaklaşım, yapay zeka güvenliğini, “yapay zeka sürdürülebilirliği, adalet, eşitlik, şeffaflık ve hesap verebilirlik” gibi diğer ilgili ancak farklı kavramlardan ayırır, ancak yine de hepsini birbiriyle ilişkili odak alanları olarak görür.

2. Temel Yapay Zeka Güvenliği Hedefleri ve İlgili Riskler

Yayın, yapay zeka güvenliğinin dört ana hedefi etrafında yapılandırılmıştır:

2.1. Güvenilirlik (Reliability)

Bir yapay zeka sisteminin güvenilirliği, amaçlanan işlevselliğe ve programlandığı özelliklere ne kadar uyduğunu gösterir. Güvenilir bir sistem, “karar verme sürecindeki belirsizliği bildirme, değişen verilere uyum sağlama ve sağlam bir şekilde genelleşme yeteneğine” sahiptir. Amaç, sistemin tasarımcılarının beklediği ve öngördüğü gibi davranırken, dinamik ortamlara etkili bir şekilde uyum sağlamasıdır.

  • Güvenilirliğe Yönelik Riskler:Kavram veya Model Kayması (Concept or Model Drift): Makine öğrenimi sistemleri genellikle geçmiş verilerden oluşturulmuş statik modeller üzerinde çalışır. Zamanla, temel veri dağıtımındaki değişiklikler modelin performansını ve güvenilirliğini düşürebilir. “Geçmiş verilerin, eğitilmiş modelin mimarisine kristalleşmiş olması, ilgili popülasyonu yansıtmamaya başladığında, modelin eşleme işlevi bozulacak ve girdilerini hedef çıktı değerlerine doğru ve güvenilir bir şekilde dönüştüremeyecektir.” Bu, ani, kademeli, tekrarlayan veya artımlı kaymalar şeklinde ortaya çıkabilir.
  • Aşırı Uyum (Overfitting): Modelin eğitim verilerindeki kalıplara çok sıkı uyması durumunda ortaya çıkar. Bu, eğitilmiş sistemin yeni, görülmemiş verilere etkili bir şekilde yanıt verememesine yol açarak gerçek dünya senaryolarında kötü veya güvenilmez performans göstermesine neden olur. Aşırı uyum, modelin eğitim veri setindeki gürültüyü temel veri dağıtımının sinyalleri olarak yanlışlıkla almasıyla oluşur.

2.2. Güvenlik (Security)

Güvenlik, yapay zeka sisteminin mimarisini yetkisiz değişiklik veya hasardan koruma yeteneği ile ilgilidir. Hassas bilgilerin korunmasını ve sistemin yetkili kullanıcılar için sürekli olarak işlevsel ve erişilebilir kalmasını içerir. Sağlık hizmetlerinde, hasta verilerinin korunması, veri ihlallerinin gizlilik haklarını ihlal edebileceği ve damgalanmış tıbbi durumları olan hastalar için akut sonuçlar doğurabileceği önemli bir güvenlik endişesidir.

2.3. Sağlamlık (Robustness)

Sağlamlık, bir sistemin bütünlüğünün gücünü ve beklenmedik veya anormal koşullara yanıt olarak operasyonunun sağlamlığını ölçer. Amaç, bir yapay zeka sisteminin “sert koşullar altında, yani düşmanca müdahale, uygulayıcı hatası veya otomatik bir öğrencinin (takviyeli öğrenme uygulamalarında) yanlış yönlendirilmiş hedef-uygulama gibi koşullar altında güvenilir ve doğru bir şekilde çalışmasıdır.”

  • Güvenliğe ve Sağlamlığa Yönelik Riskler:Düşmanca Saldırılar (Adversarial Attacks): Makine öğrenimi modellerinin, girdileri genellikle algılanamaz şekillerde kötü niyetli olarak değiştirerek yanlış sınıflandırmaya veya yanlış tahmine neden olmasıdır. Bu saldırılar, “kritik sistemlerin (otonom ulaşım, tıbbi görüntüleme ve güvenlik ve gözetim uygulamaları gibi) benimsenmesi için potansiyel olarak ciddi güvenlik sonuçları” doğurur. Model tersine çevirme (MI) saldırıları, kötü niyetli aktörlerin eğitim verilerini yeniden yapılandırmaya veya model parametrelerinden hassas bilgilere erişmeye çalıştığı bir alt kümedir.
  • Veri Zehirleme (Data Poisoning): Eğitim veri setlerine kötü niyetli veriler eklenerek modelin davranışının bozulmasını amaçlar.
  • Transfer Öğrenme Saldırıları (Transfer Learning Attacks): Önceden eğitilmiş modellerin kullanılması, zehirlenmiş ağırlıklara sahip olabilen veya belirli bir tetikleyici ile manipülasyona izin veren ‘arka kapılar’ içeren ‘arka kapı saldırıları’ gibi güvenlik açıklarını ortaya çıkarabilir.

3. Yapay Zeka Yaşam Döngüsü Boyunca Güvenlik Değerlendirmesi ve Risk Yönetimi

Yayın, yapay zeka yaşam döngüsünün çeşitli aşamalarında güvenlik değerlendirme ve risk yönetimi için kapsamlı bir çerçeve sunar. Bu, şunları içerir:

  • Güvenlik Öz Değerlendirmesi: “Proje ekiplerinin tasarım ve uygulama uygulamalarının yapay zeka güvenlik hedefleriyle ne kadar uyumlu olduğunu değerlendirmelidir.”
  • Risk Yönetim Planı: Tanımlanan riskleri yönetmek, ortadan kaldırmak veya azaltmak için yapılan eylemleri belgelemek ve bu eylemleri (kimin, ne zaman, nasıl) kaydetmek.

Yaşam döngüsünün her aşaması (Tasarım, Geliştirme, Dağıtım), güvenlik hedeflerine ulaşmak için belirli faaliyetler ve dikkate alınması gereken riskler içerir:

3.1. Tasarım Aşaması

  • Proje Planlaması: Veri kalitesinin korunması için orantılı güvenlik protokollerinin oluşturulması; test, bakım, izleme ve değerlendirmede model ve yapay zeka güvenlik hedeflerini kimin destekleyeceğinin belirlenmesi.
  • Problem Oluşturma: Belirli kullanım bağlamı ve etki düzeyi göz önünde bulundurularak kabul edilebilir doğruluk, performans ve güvenilirlik eşiklerinin karşılanıp karşılanmadığının değerlendirilmesi. Siber güvenlik risklerine karşı algoritmik modellerin ve vekil verilerin kullanımının değerlendirilmesi.
  • Veri Çıkarımı veya Tedarik: Veri kaynaklarının ölçüm doğruluğu ve güvenilirliği açısından yeterince incelenmesi ve doğrulanması. Zehirlenmiş verilere karşı korunmak için veri kaynaklarının güvenilirliğinin değerlendirilmesi.
  • Veri Analizi: Veri kalitesinin değerlendirilmesi ve doğrulanması (ilgililik, zamanlılık, eksiksizlik, temsil ve yeterli miktar). Tedarik edilen veri setlerinin proje amacına uygunluğunun değerlendirilmesi.

3.2. Geliştirme Aşaması

  • Ön İşleme ve Özellik Mühendisliği: Bilinen boşlukları gidermek ve eğitim verilerinin temsili ve eksiksiz olmasını sağlamak için alan uzmanlarıyla işbirliği içinde sentetik verilerin kullanılarak veri setlerinin artırılması. Aşırı uyumu önlemek için erken durdurma, özellik seçimi, düzenleme veya çapraz doğrulama teknikleri (örn. k-kat çapraz doğrulama) uygulanması.
  • Model Seçimi ve Eğitimi: Doğruluk dışındaki performans metriklerinin (örn. duyarlılık, kesinlik, özgüllük) önceliklendirilmesi ve bağlama duyarlılıkları. Tedarik edilen önceden eğitilmiş modellerin güvenilirliğinin değerlendirilmesi ve transfer öğrenme saldırılarına karşı korunma. Model sertleştirme teknikleri ve arka kapı/düşmanca saldırılara karşı savunma mekanizmalarının entegrasyonu.
  • Model Test ve Doğrulama: Modelin güvenilir performansını sağlamak için çeşitli paydaş gruplarının geliştirme ve test sürecine dahil edilmesi. Çalışma zamanı ortamındaki yeni verilerle karşılaşma riskini en aza indirmek için hassasiyet analizleri ve eğitim verilerine müdahaleler kullanarak modelin değerlendirilmesi ve optimize edilmesi. Modelin inversion saldırılarına karşı savunmasızlığını en aza indirmek için model sertleştirme teknikleri kullanılması. Düşmanca müdahale, uygulama hatası veya yanlış yönlendirilmiş pekiştirmeli öğrenme davranışına karşı sistemin stres testi yapılması.

3.3. Dağıtım Aşaması

  • Sistem Uygulama: Çeşitli ortamlarda modelin dahili ve harici olarak doğrulanması. Hassas verilerin güvenilmeyen üçüncü taraflara ifşa edilmesini önlemek için penetrasyon testi yapılması. Gerçek zamanlı düşmanca örnekleri tanımlamak ve izlemek için çalışma zamanı tespitinin dahil edilmesi. İnsan müdahalesine izin veren mekanizmaların (insan-döngüde) yerleştirilmesi.
  • Kullanıcı Eğitimi: Kullanıcılara sistemin işlevleri ve sınırlamaları hakkında bilgi verilmesi; hataları ve beklenmedik davranışları nasıl tanıyacakları ve bunlara nasıl yanıt verecekleri konusunda eğitim verilmesi. Sistem operasyonlarından kaynaklanan fiziksel, psikolojik veya ahlaki zararları önlemek için süreçlerin dahil edilmesi.
  • Sistem Kullanımı ve İzleme: Doğruluk, performans ve güvenilirlik için kabul kriterlerinin karşılandığından emin olmak için sistemin sürekli olarak izlenmesi ve test edilmesi. Kavram kaymalarına ve temel veri dağıtımlarındaki kaymalara ayak uydurabilmesini sağlamak için sistemin performansının düzenli olarak yeniden değerlendirilmesi. Hassas verilerin zamanla üçüncü taraflara ifşa edilmemesini sağlamak için kapsamlı penetrasyon testi yapılması.
  • Model Güncelleme veya Devreden Çıkarma: Modelin güncellenmesini veya devreden çıkarılmasını tetikleyen standartların belirlenmesi. Gerekli güncellemelerin yapılmasını sağlayacak önlemlerin alınması ve modelin gerektiğinde devre dışı bırakılması.

4. Metrikler ve Önemli Kavramlar

Belge, yapay zeka sistemlerinin performansını ve güvenilirliğini değerlendirmek için kullanılan temel metrikleri açıklar:

  • Doğru Pozitifler (True Positives): Modelin hastanın hastalığı olduğunu tahmin etmesi ve hastanın gerçekten hastalığı olması.
  • Doğru Negatifler (True Negatives): Modelin hastanın hastalığı olmadığını tahmin etmesi ve hastanın gerçekten hastalığı olmaması.
  • Yanlış Pozitifler (False Positives) (Tip 1 Hata): Modelin hastanın hastalığı olduğunu tahmin etmesi, ancak hastanın hastalığı olmaması.
  • Yanlış Negatifler (False Negatives) (Tip 2 Hata): Modelin hastanın hastalığı olmadığını tahmin etmesi, ancak hastanın hastalığı olması. Belge, tıbbi teşhis durumunda, “bir ekibin Tip 2 hataları (Yanlış Negatifler) en aza indirmek için modeli tasarlayabileceğini, böylece bir teşhisin gözden kaçırılmamasını” vurgulamaktadır.
  • Hassasiyet (Recall) (Gerçek Pozitif Oranı veya Duyarlılık): Modelin tüm pozitif sınıflardan yaptığı doğru tahmin sayısını açıklar. TP / (TP + FN) olarak hesaplanır.
  • Kesinlik (Precision): Pozitif olarak tahmin edilen tüm sınıflara bakar ve bu tahminlerin kaçının gerçekte pozitif olduğunu belirler. TP / (TP + FP) olarak hesaplanır.
  • Özgüllük (Specificity): Belirli bir pozitif tahminin gerçekte pozitif olma olasılığına bakmak yerine, negatif olarak tahmin edilen tüm sınıflara bakar ve kaçının gerçekte negatif olduğunu belirler.
  • F1-skoru: Kesinlik ve hassasiyetin harmonik ortalamasıdır ve bir veri setindeki modelin doğruluğunun bir ölçüsüdür.
  • AUC-ROC (Eğri Altındaki Alan-Alıcı Çalışma Karakteristikleri) Eğrisi: Özellikle ikili sınıflandırma için faydalı olan genel model performansını değerlendirmek için kullanılan bir metriktir.
  • Güven Aralıkları ve Hata Çubukları: Veri ortalamasını hesaplayarak ve her iki tarafta bir hata tahmini çıkarıp ekleyerek olası hatayı açıklar. Bu, testin tekrarlanması durumunda tahmini değer aralığını belirli bir güven düzeyiyle anlamaya yardımcı olur.

5. YZ Güvenliğini Uygulamada Etkinlikler ve Çerçeve

Belge, ekiplerin bu kavramları uygulayabilmeleri için pratik etkinlikler ve bir çerçeve sağlar:

  • Ortak Bir Sözlük Oluşturma: Ekiplerin dört güvenlik hedefine ilişkin anlayışlarını tartışmasını sağlar.
  • Riskleri Haritalama: Örnek senaryolarda (örn. trafik akış analizi veya acil servislerde hasta risk tahmini) potansiyel güvenlik risklerini belirlemek için grup tartışmaları.
  • Güvenlik Öz Değerlendirmesi: Güvenlik güvence faaliyetlerini proje yaşam döngüsünün ilgili aşamalarıyla ilişkilendirme.

Yayın, yapay zeka sistemlerinin tasarım, geliştirme ve dağıtım süreçleri boyunca sürekli dikkat ve risk yönetimi gerektiren karmaşık, dinamik varlıklar olduğunu vurgulamaktadır. Bu, yapay zeka güvenliğinin yalnızca teknik bir sorun değil, aynı zamanda titiz planlama, sürekli izleme ve disiplinler arası işbirliğini gerektiren sosyo-teknik bir zorluk olduğu anlamına gelir.

 

Scroll to Top