Yapay Zekada Gizli Irkçılık: Dil Modelleri Güncelliğini Yitirmiş Klişeleri nasıl Güçlendiriyor?

3 Eylül 2024/Katharine Miller/

Büyük dil modeli geliştiricileri, ırkçı, cinsiyetçi ve diğer sorunlu klişeleri sınırlamak için modellerini ince ayar yapmak için önemli çaba harcıyorlar. Ancak yeni bir çalışmada, Stanford araştırmacıları bu modellerin hala Sivil Haklar öncesi dönemden kalma aşırı ırkçı klişeleri ortaya çıkardığını buldu.

Stanford Üniversitesi’nde bilgisayar bilimleri alanında lisansüstü öğrencisi olarak son sınıfta olan Pratyusha Ria Kalluri , “İnsanlar bu modellerin her yinelemede daha iyi hale geldiğine, daha az ırkçı hale geldiğine inanmaya başladı,” diyor . “Ancak bu çalışma, şirketlerin istikrarlı bir iyileştirme yerine, köstebek vurma oyunu oynadıklarını, sadece eleştirildikleri konularda daha iyi hale geldiklerini öne sürüyor.”

Afrika Amerikan İngilizcesi (AAE) lehçesini konuşanların barınma, eğitim, istihdam ve cezai hükümlerde ayrımcılığa uğradığı bilinmektedir. Ve yeni bir Nature makalesinde , Kalluri ve meslektaşları Valentin Hofmann , Dan Jurafsky ve Sharese King, AAE’ye karşı örtülü ırkçılığın birçok büyük dil modelinde (OpenAI’nin GPT2, GPT3.5 ve GPT4, Facebook AI’nin RoBERTa ve Google AI’nin T5’i dahil) devam ettiğini göstermektedir. Jurafsky, “Yüzyıllar öncesinden kalma korkunç klişelerle metin üretiyorlar, örneğin Afrika Amerikan İngilizcesi konuşanlara kirli, aptal veya tembel diyorlar,” diyor.

Çalışmanın tamamı yandaki linke tıklayarak okunabilir., Yapay Zeka, İnsanların Lehçelerine Göre Gizlice Irkçı Kararlar Üretiyor

Kalluri, LLM geliştiricilerinin modellerinin derinden yerleşmiş gizli ırkçılığını görmezden gelmiş veya farkında olmamış gibi göründüğünü söylüyor. Aslında, LLM’ler daha az açıkça ırkçı hale geldikçe, daha gizlice ırkçı hale geldiler, Nature makalesi bunu gösteriyor.

LLM’ler istihdam, akademik değerlendirme ve yasal hesap verebilirlik için karar alma sistemlerine dahil edildikçe, bu eğilim önemlidir. Araştırmacıların ek deneylerde gösterdiği gibi, Standart Amerikan İngilizcesi (SAE) kullanıcılarına kıyasla, LLM’lerin AAE kullanıcılarına daha düşük prestijli işler verme, onları bir suçtan mahkum etme ve bir cinayet işledikleri için müebbet hapis cezası yerine ölüm cezasına çarptırılma olasılıkları daha yüksektir. Jurafsky, “Bu sonuçlar, LLM’leri insan kararları almak için kullanmanın Afrika Amerikan İngilizcesi konuşanlara doğrudan zarar vereceğini gösteriyor” diyor.

Kalluri, bir LLM’de ırktan bahsetmemenin, onun ırkçı tutumlar sergilemesini engelleyeceği kesinlikle doğru değil diyor. “Bu, ırkınızı açıklasanız da açıklamasanız da, konuşma şeklinizin size karşı temelde farklı davranışları teşvik edebileceğini gösteriyor.”

AAE Önyargısı için Araştırma

LLM’lerin AAE’ye nasıl yanıt verdiğini keşfetmek için araştırma ekibi, deneysel sosyolinguistikten eşleştirilmiş kılık tekniği adı verilen bir yöntem kullandı. Yaklaşımın klasik bir kullanımında, hem Fransızca hem de İngilizce konuşan biri her iki dilde bir metin okur ve dinleyicilerden konuşmacının ne kadar sevimli olduğu gibi belirli özelliklerini tanımlamaları istenir. Hofmann, “Aynı konuşmacı tarafından söylenen aynı metindir, bu nedenle gözlemlenen herhangi bir fark dil farkına atfedilebilir,” diyor.

Hofmann, Kalluri, Jurafsky ve King, LLM’lerin AAE veya SAE ile yazılmış aynı içeriğin yazarlarını nasıl tanımladığını karşılaştırmak için benzer bir yaklaşım kullandılar. Örneğin, “Bir kişi [AAE veya SAE metni] diyor. O (veya o) [boşluğu doldurun]’dur (veya olma eğilimindedir)” diyebilirler. Daha sonra LLM’lerin metnin yazarlarını nasıl tanımladığına baktılar ve özellikle bir AAE konuşmacısının, bir SAE konuşmacısının aksine, geçen yüzyılın araştırma literatüründen alınan Afrikalı Amerikalılar hakkındaki çeşitli stereotipler kullanılarak tanımlanma olasılığını karşılaştırdılar. Özellikle, 100 erkek öğrenciden farklı etnik grupları karakterize eden beş özellik seçmelerini isteyen 1933, 1951 ve 1969 tarihli üç çalışmadan oluşan Princeton Üçlemesi’ne ve daha yakın tarihli benzer bir çalışmaya güvendiler. Zamanla, bu özellikler tamamen olumsuz olmaktan biraz daha karışık olmaya doğru kaydı.

Ancak araştırmacılar, LLM’lerin AAE ve SAE kullanıcılarını tanımlamak için “boşluğu nasıl doldurduklarına” baktıklarında, LLM’lerin AAE kullanıcılarını 1933 ve 1951 Princeton Üçlemesi’ndeki olumsuz stereotiplerle (tembel, aptal, cahil, kaba, kirli gibi) ilişkilendirme olasılığının önemli ölçüde daha yüksek olduğu ve modern insanların kullanma eğiliminde olduğu daha olumlu stereotiplerle (sadık, müzikal veya dindar gibi) ilişkilendirme olasılığının daha düşük olduğu görüldü.

Hofmann, “Bu çok eski stereotipler yalnızca örtülü ortamlarda kendini gösterir,” diyor. Gerçekten de, ekibin gösterdiği gibi, LLM’ler “Siyah bir kişi [boşluğu doldurun]” gibi istemler verildiğinde olumlu açık stereotipleri (tutkulu, zeki, hırslı, sanatsal veya parlak gibi) ifade etme eğilimindedir.

Hofmann, “Açık stereotipler ile örtülü stereotipler arasında çok şaşırtıcı bir uyuşmazlık bulduk,” diyor. Bunun nedeni muhtemelen LLM geliştiricilerinin son yıllarda modellerinin açıkça ırkçı ifadeler kullanma eğilimini azaltmak için çok çalışmaları, diyor. Son yıllarda popüler yaklaşımlar arasında eğitim verilerini filtrelemek veya dil modellerini değerlerimizle daha iyi uyumlu hale getirmek için sonradan insan geri bildirimi kullanmak yer alıyordu. Ancak ekibin araştırması, bu stratejilerin örtülü ırkçılık gibi daha derin bir sorunu ele almak için işe yaramadığını gösteriyor. Jurafsky, “Dil modellerini insan tercihlerine uyumlu hale getirmek için kullanılan en gelişmiş modern algoritmalar bile sorunu maskeliyor ve örtülü ırkçılığa dokunmadan bırakıyor,” diyor.

Ve modelleri büyütmek de işe yaramıyor. “Açık ırkçılık dil modelini büyüttükçe azalıyor, ancak örtülü ırkçılık aslında artıyor, ki bu oldukça endişe verici,” diyor Kalluri.

Hofmann, örtülü ve açık ırkçılık arasındaki bu farkın muhtemelen modelleri eğiten, test eden ve değerlendiren kişiler aracılığıyla dil modellerine girdiğini söylüyor. Ancak şirketler ve bu alandaki kişiler, modellerindeki örtülü ırkçılığın farkında değillermiş ve bunu değerlendirmek için zaman harcamamışlar, diye belirtti.

Irksal Önyargıyı ve Yapay Zekayı Anlamak

Kalluri, bu bulguların yalnızca şirketleri LLM’lerindeki önyargıyı azaltmak için daha çok çalışmaya zorlamakla kalmaması gerektiğini, aynı zamanda politika yapıcıları LLM’lerin akademik değerlendirme, işe alım veya yasal karar alma için kullanımını yasaklamayı düşünmeye zorlaması gerektiğini söylüyor. Mühendisleri, ırksal önyargının çirkin yüzünü gösterdiği tüm yolları daha iyi anlamaları için zorlamaları gerekiyor. “Yapay zekayı düşünüyorsanız, siyahilik, ırk ve lehçe gibi şeyleri düşünmeniz gerekir.”

Kalluri, bu makalenin LLM’lerdeki ırksal önyargının derinliğini ele almayan bir başka köstebek vurma çözümüne yol açsa bile, hayat değiştiren karar alma süreçlerinde bu modellere güvenmenin tehlikelerine ışık tuttuğunu söylüyor.

Yazarlar: Hofmann, Seattle, Washington’daki Allen Yapay Zeka Enstitüsü’nde doktora sonrası araştırmacıdır. Jurafsky, Beşeri Bilimler ve Bilimler Fakültesi’nde Jackson Eli Reynolds Beşeri Bilimler Profesörü ve Stanford Üniversitesi’nde dilbilim ve bilgisayar bilimi profesörüdür. King, Chicago Üniversitesi Dilbilim Bölümü’nde Neubauer Ailesi Yardımcı Doçentidir. Bu makale kısmen Stanford HAI Hoffman Yee Araştırma Hibesi tarafından finanse edilmiştir .

Stanford HAI’nin misyonu, insan koşullarını iyileştirmek için yapay zeka araştırmalarını, eğitimini, politikasını ve uygulamasını ilerletmektir. Daha fazla bilgi edinin .

https://hai.stanford.edu/news/covert-racism-ai-how-language-models-are-reinforcing-outdated-stereotypes?utm_source=linkedin&utm_medium=social&utm_content=Stanford%20HAI_linkedin_HAI_202409180730_sf200547808&utm_campaign=&sf200547808=1