Uydurma eğilimi, sohbet robotlarını geri tutuyor. Ama yaptıkları tam da bu.
Will Douglas /18 Haziran 2024
Dünya Sağlık Örgütü’nün yeni chatbot’u 2 Nisan’da iyi niyetlerle kullanıma sunuldu.
GPT-3.5 destekli yeni yüzlü sanal avatar SARAH (Sağlık için Akıllı Yapay Zeka Kaynak Asistanı), dünyanın dört bir yanındaki milyonlarca kişiye sağlıklı beslenme, sigarayı bırakma, stresten arınma ve daha fazlası hakkında 7/24 sekiz farklı dilde sağlık ipuçları veriyor.
Ancak tüm sohbet robotları gibi SARAH da cevaplarında hata yapabilir. Yanlış bilgi verdiği kısa sürede anlaşıldı . Bir vakada, San Francisco’daki mevcut olmayan kliniklerin sahte isim ve adreslerinden oluşan bir liste oluşturdu . Dünya Sağlık Örgütü , web sitesinde SARAH’ın her zaman doğru olmayabileceği konusunda uyarıyor.
İşte yine başladık. Chatbot başarısızlıkları artık herkesin bildiği bir fenomen. Meta’nın kısa ömürlü bilimsel chatbot’u Galactica, uzaydaki ayıların tarihi hakkında akademik makaleler ve wiki makaleleri hazırladı. Şubat ayında Air Canada, müşteri hizmetleri chatbot’u tarafından icat edilen bir iade politikasına uyması emredildi. Geçen yıl bir avukat, ChatGPT tarafından uydurulmuş sahte yargı kararları ve yasal tebligatlarla dolu mahkeme belgeleri sunduğu için para cezasına çarptırıldı.
Sorun şu ki, büyük dil modelleri yaptıkları işte o kadar iyiler ki, ortaya çıkardıkları şeyler çoğu zaman doğru görünüyor. Bu da onlara güvenmeyi zorlaştırıyor.
Halüsinasyon olarak da bilinen bu uydurma eğilimi, sohbet robotlarının daha yaygın olarak benimsenmesini engelleyen en büyük engellerden biridir. Peki bunu neden yapıyorlar? Ve neden düzeltemiyoruz?
Sihirli 8 Top
Büyük dil modellerinin neden halüsinasyon gördüğünü anlamak için nasıl çalıştıklarına bakmamız gerekiyor. Dikkat edilmesi gereken ilk nokta, bu modellerin tam da bu amaçla tasarlanmış olmasıdır. Bir sohbet robotuna bir soru sorduğunuzda, yanıtını temelini oluşturan büyük dil modelinden alır. Ancak bu, bir veritabanında bilgi aramak veya internette bir arama motoru kullanmak gibi değildir.
Büyük bir dil modelini açtığınızda, alınmayı bekleyen hazır bilgiler görmezsiniz. Bunun yerine, milyarlarca ve milyarlarca sayı bulursunuz. Bu sayıları kullanarak yanıtlarını sıfırdan hesaplar ve anında yeni kelime dizileri üretir. Büyük bir dil modelinin ürettiği metnin çoğu, bir veritabanından veya gerçek bir web sayfasından kopyalanıp yapıştırılmış gibi görünür. Ancak çoğu kurgu eserinde olduğu gibi, benzerlikler tesadüfidir. Büyük bir dil modeli, bir ansiklopediden çok sonsuz bir Magic 8 Ball’a benzer.
Büyük dil modelleri, bir dizideki bir sonraki kelimeyi tahmin ederek metin üretir. Bir model “kedi oturdu” ifadesini görürse, “on” kelimesini tahmin edebilir. Bu yeni dizi, modele geri beslenir ve model artık “the” kelimesini tahmin edebilir. Tekrar deneyin ve “mat” kelimesini tahmin edebilir ve bu böyle devam eder. Bu tek numara, Amazon listelerinden haikuya, hayran kurgularına, bilgisayar kodlarından dergi makalelerine ve çok daha fazlasına kadar aklınıza gelebilecek hemen hemen her türlü metni üretmek için yeterlidir. Bilgisayar bilimcisi ve OpenAI’nin kurucu ortağı Andrej Karpathy’nin de dediği gibi: büyük dil modelleri, internet belgelerini hayal etmeyi öğrenir.
İlgili Hikaye
Yapay zeka, yaratıcılık konusunda insan testini geçti. Bu ne anlama geliyor?
Büyük bir dil modelinin içindeki milyarlarca sayıyı, belirli kelimelerin belirli diğer kelimelerle birlikte görünme istatistiksel olasılığını yakalayan devasa bir elektronik tablo olarak düşünün. Elektronik tablodaki değerler, model eğitildiğinde ayarlanır ve bu süreç, modelin tahminleri internetten alınan terabaytlarca metinde bulunan dilsel kalıpları yansıtana kadar bu değerleri tekrar tekrar ayarlar.
Bir kelimeyi tahmin etmek için model, sayılarını çalıştırır. Kelime dağarcığındaki her kelime için, o kelimenin oyun sırasındaki bir sonraki kelime olma olasılığını yansıtan bir puan hesaplar. En yüksek puanı alan kelime kazanır. Kısacası, büyük dil modelleri istatistiksel kumar makineleridir. Kolu çevirin ve bir kelime çıkar.
Hepsi halüsinasyon
Buradan çıkarılacak ders ne? Hepsi halüsinasyon, ama biz buna ancak yanlış olduğunu fark ettiğimizde halüsinasyon diyoruz. Sorun şu ki, büyük dil modelleri yaptıkları işte o kadar iyi ki, ortaya çıkardıkları çoğu zaman doğru görünüyor. Bu da onlara güvenmeyi zorlaştırıyor.
Büyük dil modellerinin ürettiği metinlerin doğruluğunu garanti edecek şekilde kontrol edebilir miyiz? Bu modeller, sayısal değerlerinin elle değiştirilemeyecek kadar karmaşıktır. Ancak bazı araştırmacılar, bu modellere daha fazla metinle eğitim vermenin hata oranlarını azaltmaya devam edeceğine inanıyor. Bu, büyük dil modelleri büyüdükçe ve geliştikçe gördüğümüz bir eğilim.
Başka bir yaklaşım, modellerden çalışmalarını yaparken kontrol etmelerini ve yanıtları adım adım bölmelerini istemektir. Düşünce zinciri yönlendirmesi olarak bilinen bu yöntemin, bir sohbet robotunun çıktısının doğruluğunu artırdığı gösterilmiştir. Henüz mümkün olmasa da, gelecekteki büyük dil modelleri, ürettikleri metnin doğruluğunu kontrol edebilir ve hatta kontrolden çıkmaya başladıklarında geri sarabilir.
Ancak bu tekniklerin hiçbiri halüsinasyonları tamamen durduramaz. Büyük dil modelleri olasılıksal olduğu sürece, ortaya çıkardıkları sonuçta bir miktar şans payı vardır. 100 zar atarsanız bir desen elde edersiniz. Tekrar atarsanız başka bir desen elde edersiniz. Zarlar, büyük dil modelleri gibi, bazı desenleri diğerlerinden çok daha sık üretecek şekilde ağırlıklandırılsa bile, sonuçlar her seferinde aynı olmayacaktır. Bu teknolojinin günde kaç kez kullanıldığını düşündüğünüzde, 1.000’de -veya 100.000’de- bir hata bile çok fazla hataya denk gelir.
Bu modeller ne kadar doğru olursa, o kadar tetikte olacağız. Araştırmalar, sohbet robotları ne kadar iyileşirse, insanların bir hatayı fark etme olasılığının o kadar arttığını gösteriyor .
Halüsinasyona karşı belki de en iyi çözüm, bu araçların ne işe yaradığına dair beklentilerimizi yönetmektir. Sahte belgeler oluşturmak için ChatGPT kullanan avukattan açıklama yapması istendiğinde, olanlara herkes kadar şaşırmış görünüyordu. Bir hakime, “Süper bir arama motoru olduğunu yanlışlıkla varsaydığım bu yeni siteyi duydum,” dedi. “ChatGPT’nin davaları nasıl uydurabileceğini anlayamadım.”
