Fei-Fei Li, dünyanın nasıl işlediğini anlamanın yolu: Yapay Zeka için bir sonraki adımdır.

Stanford profesörü ve “Yapay Zeka’nın vaftiz annesi”, dil modellerinin ötesine bakmanın zamanının geldiğini savunuyor

Stanford HAI eş direktörü ve World Labs CEO’su Fei-Fei Li.

LDil görsel aforizmalarla doludur . Görmek inanmaktır. Bir resim bin kelimeye bedeldir. Gözden uzak, gönülden uzak. Liste uzar gider. Bunun nedeni, biz insanların görüşümüzden çok fazla anlam çıkarmasıdır. Ancak görmek her zaman mümkün değildi. Yaklaşık 540 milyon yıl öncesine kadar, tüm organizmalar suyun yüzeyinin altında yaşıyordu ve hiçbiri göremiyordu. Sadece trilobitlerin ortaya çıkmasıyla hayvanlar ilk kez etraflarındaki güneş ışığının bolluğunu algılayabildiler. Bunun ardından gelenler dikkate değerdi. Sonraki 10-15 milyon yıl içinde, görme yeteneği Kambriyen patlaması olarak bilinen ve çoğu modern hayvanın atalarının ortaya çıktığı bir dönemi başlattı.

Bugün yapay zekada ( YZ ) modern bir Kambriyen patlaması yaşıyoruz . Her hafta yeni, akıl almaz bir araç kullanıma sunuluyor gibi görünüyor. Başlangıçta, üretken- YZ devrimi, insanların sözel zekasını taklit eden Chat GPT gibi büyük dil modelleri tarafından yönlendirildi . Ancak ben, vizyona dayalı bir zekanın (benim uzamsal zeka dediğim şeyin) daha temel olduğuna inanıyorum. Dil önemlidir ancak insanlar olarak dünyayı anlama ve onunla etkileşim kurma yeteneğimizin çoğu gördüğümüz şeylere dayanmaktadır.

Yapay zekanın bilgisayar görüşü olarak bilinen bir alt alanı, uzun zamandır bilgisayarlara insanlarla aynı veya daha iyi mekansal zekaya sahip olmalarını öğretmeye çalışmaktadır. Alan, son 15 yılda hızla ilerledi. Ve yapay zekanın merkezinde insan yararının olması gerektiği temel inancıyla yönlendirilerek kariyerimi buna adadım.

Hiç kimse bir çocuğa nasıl göreceğini öğretmez. Çocuklar dünyayı deneyimler ve örnekler aracılığıyla anlamlandırır. Gözleri biyolojik kameralar gibidir, saniyede beş kez “fotoğraf” çeker. Üç yaşına kadar çocuklar bu tür yüz milyonlarca resim görmüş olurlar.

Büyük dil modellerinden büyük dünya modellerine geçmemiz gerekiyor

Onlarca yıllık araştırmalardan, görmenin temel bir öğesinin nesne tanıma olduğunu biliyoruz, bu yüzden bilgisayarlara bu yeteneği öğreterek başladık. Kolay değildi. Bir kedinin üç boyutlu ( 3B ) şeklini, örneğin, iki boyutlu ( 2B ) bir görüntüye dönüştürmenin, görüntüleme açısına, duruşa, arka plana ve daha fazlasına bağlı olarak sonsuz sayıda yolu vardır. Bir bilgisayarın bir resimdeki bir kediyi tanımlayabilmesi için, tıpkı bir çocuğun yaptığı gibi, çok sayıda bilgiye sahip olması gerekir .

Bu, 2000’lerin ortalarında üç unsur bir araya gelene kadar mümkün değildi. O noktada, onlarca yıldır var olan evrişimli sinir ağları olarak bilinen algoritmalar, modern grafik işleme birimlerinin ( GPU’lar ) gücüyle ve “büyük veri”nin kullanılabilirliğiyle karşılaştı – internetten milyarlarca görüntü, dijital kameralar vb.

Laboratuvarım bu birleşmeye “büyük veri” öğesini kattı. 2007’de ImageNet adlı bir projede, 22.000 nesne kategorisinde 15 milyon etiketli görüntüden oluşan bir veritabanı oluşturduk. Daha sonra biz ve diğer araştırmacılar, görüntüler ve bunlara karşılık gelen metinsel etiketler kullanarak sinir ağı modellerini eğittik, böylece modeller daha önce görülmemiş bir fotoğrafı basit bir cümle kullanarak tanımlamayı öğrendi. ImageNet veritabanı kullanılarak oluşturulan bu görüntü tanıma sistemlerindeki beklenmedik hızlı ilerleme, modern yapay zeka patlamasını ateşlemeye yardımcı oldu.

Teknoloji ilerledikçe, transformatör mimarileri ve difüzyon gibi tekniklere dayalı yeni nesil modeller, üretken AI araçlarının şafağını beraberinde getirdi . Dil alanında, bu Chat GPT gibi sohbet robotlarını mümkün kıldı . Görme söz konusu olduğunda, modern sistemler yalnızca tanımakla kalmaz, aynı zamanda metin istemlerine yanıt olarak görüntü ve videolar da üretebilir. Sonuçlar etkileyici, ancak yine de yalnızca 2B’de .

Bilgisayarların insanların mekansal zekasına sahip olması için dünyayı modelleyebilmeleri, nesneler ve yerler hakkında akıl yürütebilmeleri ve hem zaman hem de 3B mekanda etkileşim kurabilmeleri gerekir. Kısacası, büyük dil modellerinden büyük dünya modellerine geçmemiz gerekir.

Bunun örneklerini akademi ve endüstrideki laboratuvarlarda şimdiden görüyoruz. Robotik sensörler ve aktüatörlerden gelen metin, görüntü, video ve mekansal veriler kullanılarak eğitilen en son AI modelleriyle, robotları metin komutları kullanarak kontrol edebiliyoruz; örneğin, onlardan bir telefon şarj cihazını çıkarmalarını veya basit bir sandviç yapmalarını isteyebiliyoruz. Veya, 2B bir görüntü verildiğinde, model bunu bir kullanıcının keşfetmesi için sonsuz sayıda olası 3B alana dönüştürebilir.

Uygulamalar sonsuzdur. Sıradan evlerde dolaşabilen ve yaşlı insanlara bakabilen robotları; bir cerrah için yorulmak bilmeyen bir dizi ekstra eli; veya simülasyon, eğitim ve öğretimdeki kullanımları hayal edin. Bu gerçekten insan merkezli bir yapay zekadır ve mekansal zeka onun bir sonraki sınırıdır. İnsanlarda evrimleşmesi yüz milyonlarca yıl süren şeyin bilgisayarlarda ortaya çıkması sadece on yıllar alır. Ve biz insanlar bundan faydalanacağız.

 

https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai

 

Scroll to Top