Yapay Zeka Hataları İnsan Hatalarından Çok Farklıdır

Gariplikleriyle başa çıkmak için tasarlanmış yeni güvenlik sistemlerine ihtiyacımız var.

 

Bruce Schneiers / Nathan E. Sanders / 13 Ocak 2025

İnsanlar her zaman hata yapar. Hepimiz her gün, hem yeni hem de rutin görevlerde hata yaparız. Hatalarımızın bazıları önemsizken bazıları felaket boyutundadır. Hatalar arkadaşlarımızla güvenimizi sarsabilir, patronlarımızın güvenini kaybetmemize yol açabilir ve bazen yaşam ile ölüm arasındaki fark olabilir.

Binlerce yıldır, insanların sıklıkla yaptığı hatalarla başa çıkmak için güvenlik sistemleri oluşturduk. Günümüzde, kumarhaneler krupiyelerini düzenli olarak değiştiriyor çünkü aynı görevi çok uzun süre yaparlarsa hata yapıyorlar. Hastane personeli, doktorların doğru vücut bölümünü ameliyat etmesi için ameliyattan önce uzuvlara yazıyor ve vücudun içinde hiçbir şey kalmadığından emin olmak için cerrahi aletleri sayıyorlar. Metin düzenlemeden çift taraflı muhasebeye ve temyiz mahkemelerine kadar, biz insanlar insan hatalarını düzeltmede gerçekten iyi olduk.

İnsanlık artık tamamen farklı bir hata yapıcı türünü hızla topluma entegre ediyor: Yapay Zeka. Büyük dil modelleri (LLM) gibi teknolojiler, geleneksel olarak insanlar tarafından yerine getirilen birçok bilişsel görevi gerçekleştirebilir, ancak bol miktarda hata yaparlar. Sohbet robotları size taş yemenizi veya pizzaya tutkal eklemenizi söylediğinde bu saçma görünüyor. Ancak yapay zeka sistemlerinin hatalarının sıklığı veya şiddeti onları insan hatalarından ayıran şey değildir. Gariplikleridir. Yapay zeka sistemleri, insanların yaptığı şekilde hata yapmaz.

Yapay zeka kullanımımızla ilişkili sürtüşmenin ve riskin çoğu bu farktan kaynaklanmaktadır. Bu farklılıklara uyum sağlayan ve yapay zeka hatalarından kaynaklanan zararı önleyen yeni güvenlik sistemleri icat etmemiz gerekiyor .

İnsan Hataları ve Yapay Zeka Hataları

Yaşam deneyimi, her birimizin insanların ne zaman ve nerede hata yapacağını tahmin etmesini oldukça kolaylaştırır. İnsan hataları genellikle birinin bilgisinin sınırlarında ortaya çıkar: Çoğumuz kalkülüs problemlerini çözerken hata yaparız. İnsan hatalarının kümelenmesini bekleriz: Tek bir kalkülüs hatasına başka hatalar da eşlik edebilir. Yorgunluk ve dikkat dağınıklığı gibi faktörlere bağlı olarak hataların artıp azalmasını bekleriz. Ve hatalara genellikle cehalet eşlik eder: Kalkülüs hataları yapan birinin kalkülüsle ilgili sorulara “Bilmiyorum” diye cevap vermesi de olasıdır.

Yapay zeka sistemleri bu insan benzeri hataları yaptığı ölçüde, tüm hata düzeltme sistemlerimizi çıktılarına uygulayabiliriz. Ancak mevcut yapay zeka modelleri (özellikle LLM’ler) hataları farklı şekilde yapar.

Yapay zeka hataları, belirli konular etrafında herhangi bir kümelenme olmaksızın, görünüşte rastgele zamanlarda ortaya çıkar. LLM hataları bilgi alanı boyunca daha eşit bir şekilde dağılma eğilimindedir. Bir modelin bir kalkülüs sorusunda hata yapma olasılığı, lahanaların keçileri yediğini öne sürme olasılığıyla eşit olabilir .

Ve yapay zeka hataları cehaletle birlikte gelmez. Bir LLM, tamamen yanlış bir şey söylerken -ve açıkça bir insana- doğru bir şey söylerken olduğu kadar kendinden emin olacaktır. LLM’lerin görünüşte rastgele tutarsızlığı , karmaşık, çok adımlı problemlerde akıl yürütmelerine güvenmeyi zorlaştırır. Bir iş probleminde yardımcı olması için bir yapay zeka modeli kullanmak istiyorsanız, bir ürünü karlı kılan faktörlerin ne olduğunu anlamasını görmek yeterli değildir; paranın ne olduğunu unutmayacağından emin olmanız gerekir.

Yapay Zeka Hatalarıyla Nasıl Başa Çıkılır?

Bu durum iki olası araştırma alanına işaret ediyor. Birincisi, daha insan benzeri hatalar yapan LLM’ler tasarlamak. İkincisi, LLM’lerin yapmaya meyilli olduğu belirli hata türleriyle ilgilenen yeni hata düzeltme sistemleri inşa etmek.

LLM’lerin daha insan benzeri şekillerde hareket etmesini sağlayacak bazı araçlarımız zaten var. Bunların çoğu , modellerin insan geliştiricilerinin hedefleri ve motivasyonları doğrultusunda hareket etmesini sağlamayı amaçlayan ” uyum ” araştırması alanından kaynaklanmaktadır . Bir örnek, tartışmasız bir şekilde ChatGPT’nin çığır açan başarısından sorumlu olan tekniktir: insan geri bildirimiyle takviyeli öğrenme . Bu yöntemde, bir yapay zeka modeli, insan değerlendiricilerden onay alan yanıtlar ürettiği için (mecazi olarak) ödüllendirilir. Benzer yaklaşımlar, özellikle daha az anlaşılır hatalar için onları daha fazla cezalandırarak, yapay zeka sistemlerini daha insan benzeri hatalar yapmaya teşvik etmek için kullanılabilir.

Yapay zeka hatalarını yakalamaya gelince, insan hatalarını önlemek için kullandığımız sistemlerden bazıları yardımcı olacaktır. Bir dereceye kadar, LLM’leri kendi çalışmalarını iki kez kontrol etmeye zorlamak hataları önlemeye yardımcı olabilir. Ancak LLM’ler ayrıca akıldan kaçışları için görünüşte makul ama gerçekten saçma açıklamalar uydurabilirler .

Yapay zeka için diğer hata azaltma sistemleri, insanlar için kullandığımız hiçbir şeye benzemez. Makineler, insanların yaptığı gibi yorulup hayal kırıklığına uğrayamayacağı için, bir LLM’ye aynı soruyu biraz farklı şekillerde tekrar tekrar sormak ve ardından birden fazla yanıtını sentezlemek yardımcı olabilir . İnsanlar bu tür sinir bozucu tekrarlara katlanmaz, ancak makineler katlanacaktır.

Benzerlikleri ve Farklılıkları Anlamak

Araştırmacılar LLM hatalarının insan hatalarından nerede ayrıldığını anlamakta hâlâ zorlanıyorlar. Yapay zekanın tuhaflıklarından bazıları aslında ilk bakışta göründüğünden daha insan benzeri. Bir LLM’ye yapılan bir sorguda yapılan küçük değişiklikler, çok farklı yanıtlarla sonuçlanabilir, bu da hızlı duyarlılık olarak bilinen bir sorundur. Ancak, herhangi bir anket araştırmacısının size söyleyebileceği gibi, insanlar da bu şekilde davranır. Bir kamuoyu yoklamasında bir sorunun ifadesi , yanıtlar üzerinde büyük etkilere sahip olabilir .

LLM’lerin ayrıca eğitim verilerinde en sık kullanılan kelimeleri tekrarlama yönünde bir önyargıları var gibi görünüyor ; örneğin, daha egzotik yerler sorulduğunda bile “Amerika” gibi bilindik yer adlarını tahmin etmek. Belki de bu, LLM’lerde ortaya çıkan insan ” ulaşılabilirlik buluşsal yönteminin ” bir örneğidir; makineler soruyu mantık yürüterek çözmek yerine akıllarına gelen ilk şeyi söyler. Ve belki de insanlar gibi, bazı LLM’ler uzun belgelerin ortasında dikkati dağılıyor gibi görünüyor ; gerçekleri baştan ve sondan daha iyi hatırlayabiliyorlar. Araştırmacılar, uzun metinlerden bilgi alma konusunda daha fazla örnek üzerinde eğitilen LLM’lerin bilgileri tekdüze bir şekilde alma konusunda daha iyi performans gösterdiğini bulduklarından, bu hata modunu iyileştirme konusunda zaten ilerleme kaydedildi.

Bazı durumlarda, LLM’ler hakkında tuhaf olan şey, bizim düşündüğümüzden daha çok insan gibi davranmalarıdır. Örneğin, bazı araştırmacılar LLM’lerin nakit ödül teklif edildiğinde veya ölümle tehdit edildiğinde daha iyi performans gösterdiği hipotezini test ettiler. Ayrıca, LLM’leri ” jailbreak ” etmenin (yaratıcılarının açık talimatlarına uymamalarını sağlamanın) en iyi yollarından bazılarının, insanların birbirlerine uyguladıkları sosyal mühendislik hilelerine çok benzediği ortaya çıktı: örneğin, başka biriymiş gibi davranmak veya isteğin sadece bir şaka olduğunu söylemek. Ancak diğer etkili jailbreak teknikleri, hiçbir insanın kanmayacağı şeylerdir. Bir grup, tehlikeli sorular sormak için ASCII sanatı (kelimelere veya resimlere benzeyen sembol yapıları) kullandıklarında , örneğin bir bomba nasıl yapılır, LLM’nin bu soruları gönüllü olarak cevaplayacağını buldu .

İnsanlar bazen görünüşte rastgele, anlaşılmaz ve tutarsız hatalar yapabilirler, ancak bu tür olaylar nadirdir ve genellikle daha ciddi sorunların göstergesidir. Ayrıca bu davranışları sergileyen kişileri karar alma pozisyonlarına koyma eğiliminde değiliz. Aynı şekilde, yapay zeka karar alma sistemlerini gerçek yeteneklerine uygun uygulamalarla sınırlamalıyız; hatalarının olası sonuçlarını aklımızda tutarak.

 

https://spectrum-ieee-org.cdn.ampproject.org/c/s/spectrum.ieee.org/amp/ai-mistakes-schneier-2670735062

Scroll to Top