Kelimelerden Dünyalara: Mekansal Zeka, Yapay Zekanın Yeni Sınırı

Fei-Fei Li / 10 Kasım 2025

1950’de, bilgisayarların otomatik aritmetik ve basit mantıktan biraz daha fazlası olduğu bir dönemde, Alan Turing bugün hâlâ yankılanan bir soru sordu: Makineler düşünebilir mi? Gördüğünü görmek olağanüstü bir hayal gücü gerektirdi: Zekâ bir gün doğmak yerine inşa edilebilirdi. Bu içgörü daha sonra Yapay Zekâ (YZ) adı verilen amansız bir bilimsel arayışın başlangıcı oldu. YZ alanındaki kariyerimin yirmi beşinci yılında, hâlâ Turing’in vizyonundan ilham alıyorum. Ama ne kadar yakınız? Cevap basit değil.

Günümüzde, büyük dil modelleri (LLM’ler) gibi önde gelen YZ teknolojileri, soyut bilgiye nasıl eriştiğimizi ve onunla nasıl çalıştığımızı dönüştürmeye başladı. Yine de karanlıkta kelime ustaları olarak kalıyorlar; güzel konuşuyorlar  ama deneyimsiz, bilgili ama temelsiz. Uzamsal zekâ, gerçek ve sanal dünyaları nasıl yarattığımızı ve onlarla nasıl etkileşim kurduğumuzu dönüştürecek; hikâye anlatıcılığını, yaratıcılığı, robotiği, bilimsel keşifleri ve daha fazlasını devrim niteliğinde değiştirecek. Bu, YZ’nin bir sonraki sınırı.

Görsel ve uzamsal zekâ arayışı, alana girdiğimden beri bana yol gösteren Kuzey Yıldızı oldu. Yıllarımı, ilk büyük ölçekli görsel öğrenme ve kıyaslama veri seti olan ve modern yapay zekânın, sinir ağı algoritmalarının ve modern grafik işleme birimleri (GPU’lar) gibi hesaplamaların doğuşunu sağlayan üç temel unsurdan biri olan ImageNet’i oluşturmaya adamamın sebebi de bu. Stanford’daki akademik laboratuvarımın son on yılını bilgisayarlı görü ile robotik öğrenmeyi birleştirerek geçirmesinin sebebi de bu. Ve kurucu ortaklarım Justin Johnson, Christoph Lassner, Ben Mildenhall ve ben, bir yıldan uzun bir süre önce World Labs’ı kurduk : Bu olasılığı ilk kez tam olarak hayata geçirmek için.

Bu makalede, mekansal zekânın ne olduğunu, neden önemli olduğunu ve onu açığa çıkaracak dünya modellerini nasıl oluşturduğumuzu açıklayacağım; bu da yaratıcılığı, bedensel zekâyı ve insan ilerlemesini yeniden şekillendirecek etkiye sahip olacak.

Mekansal Zeka: İnsan bilişinin iskeleti

Yapay zekâ hiç bu kadar heyecan verici olmamıştı. Büyük Dil Modelleri (LLM) gibi üretken yapay zekâ modelleri, araştırma laboratuvarlarından günlük hayata taşınarak milyarlarca insan için yaratıcılık, üretkenlik ve iletişim araçları haline geldi. Bir zamanlar imkansız olduğu düşünülen yetenekleri kanıtladılar; tutarlı metinler, yığınla kod, fotogerçekçi görüntüler ve hatta kısa video klipleri kolayca ürettiler. Artık yapay zekânın dünyayı değiştirip değiştirmeyeceği sorusu yok. Mantıklı herhangi bir tanıma göre, çoktan değiştirdi.

Yine de hâlâ ulaşamayacağımız çok şey var. Otonom robotların vizyonu, fütüristlerin uzun zamandır vaat ettiği günlük yaşamın değişmez unsurlarından çok uzak, ilgi çekici ama spekülatif olmaya devam ediyor. Hastalıkların iyileştirilmesi, yeni malzeme keşfi ve parçacık fiziği gibi alanlarda büyük ölçüde hızlandırılmış araştırma hayali büyük ölçüde gerçekleşmemiş durumda. İster moleküler kimyadaki karmaşık kavramları öğrenen öğrenciler, ister mekanları görselleştiren mimarlar, ister dünyalar inşa eden film yapımcıları veya tamamen sürükleyici sanal deneyimler arayan herkes olsun, insan yaratıcıları gerçekten anlayan ve güçlendiren yapay zekanın vaadi ise hâlâ ulaşılamaz durumda.

Bu yeteneklerin neden hala keşfedilmemiş olduğunu öğrenmek için, mekansal zekânın nasıl evrimleştiğini ve dünyaya dair anlayışımızı nasıl şekillendirdiğini incelememiz gerekiyor.

Görme, uzun zamandır insan zekâsının temel taşlarından biri olmuştur, ancak gücü daha da temel bir şeyden doğmuştur. Hayvanlar yuva yapmayı, yavrularına bakmayı, dil yoluyla iletişim kurmayı veya medeniyetler kurmayı öğrenmeden çok önce, sadece hissetme eylemi bile sessizce zekâya doğru evrimsel bir yolculuğun başlangıcı olmuştur.

Dış dünyadan, ister bir ışık parıltısı ister bir doku hissi olsun, bilgi edinme gibi görünüşte izole bir yetenek, algı ve hayatta kalma arasında nesiller geçtikçe daha da güçlenen ve daha da karmaşıklaşan bir köprü oluşturdu. Bu köprüden katman katman nöronlar gelişerek, dünyayı yorumlayan ve bir organizma ile çevresi arasındaki etkileşimleri koordine eden sinir sistemlerini oluşturdu. Bu nedenle, birçok bilim insanı, algı ve eylemin zekânın evrimini yönlendiren temel döngü ve doğanın türümüzü yarattığı temel -algılama, öğrenme, düşünme ve eylemin nihai somutlaşmış hali- haline geldiğini varsaymıştır.

Mekânsal zekâ, fiziksel dünyayla nasıl etkileşim kurduğumuzu tanımlamada temel bir rol oynar. Her gün, en sıradan eylemler için ona güveniriz: tamponla kaldırım arasındaki daralan mesafeyi hayal ederek araba park etmek, odanın bir köşesine fırlatılmış bir anahtar setini yakalamak, kalabalık bir kaldırımda çarpışmadan ilerlemek veya uykulu bir şekilde bir kupaya bakmadan kahve koymak. Daha uç durumlarda, itfaiyeciler çöken binaları hareket eden dumanların arasında dolaşır, istikrar ve hayatta kalma hakkında saniyenin onda biri kadar kısa bir sürede kararlar alır, jestler, beden dili ve dilsel bir ikamesi olmayan ortak bir mesleki içgüdüyle iletişim kurarlar. Çocuklar ise konuşma öncesi aylarının veya yıllarının tamamını, çevreleriyle oyunbaz etkileşimler kurarak dünyayı öğrenerek geçirirler. Tüm bunlar sezgisel olarak, otomatik olarak gerçekleşir; makinelerin henüz ulaşamadığı bir akıcılık.

Mekânsal Zekâ, hayal gücümüz ve yaratıcılığımızın da temelini oluşturur. Hikâye anlatıcıları, zihinlerinde benzersiz zenginlikte dünyalar yaratır ve bunları başkalarına aktarmak için antik mağara resimlerinden modern sinemaya ve sürükleyici video oyunlarına kadar birçok görsel medya biçiminden yararlanır. İster çocukların sahilde kumdan kaleler inşa etmesi, ister bilgisayarda Minecraft oynaması olsun, mekânsal temelli hayal gücü, gerçek veya sanal dünyalardaki etkileşimli deneyimlerin temelini oluşturur. Birçok endüstriyel uygulamada, nesnelerin, sahnelerin ve dinamik etkileşimli ortamların simülasyonları, endüstriyel tasarımdan dijital ikizlere ve robotik eğitime kadar sayısız kritik iş kullanım örneğine güç verir.

Tarih, mekânsal zekânın merkezi roller oynadığı, medeniyeti tanımlayan anlarla doludur. Antik Yunan’da Eratosthenes, gölgeleri geometriye dönüştürdü; Güneş’in Syene’de gölge oluşturmadığı anda İskenderiye’de 7 derecelik bir açıyı ölçerek Dünya’nın çevresini hesapladı. Hargreave’in “Spinning Jenny”si, mekânsal bir içgörüyle tekstil üretiminde devrim yarattı: Birden fazla iği tek bir çerçevede yan yana yerleştirmek, bir işçinin aynı anda birden fazla ipliği eğirmesini sağlayarak verimliliği sekiz kat artırdı. Watson ve Crick, DNA’nın yapısını fiziksel olarak 3 boyutlu moleküler modeller oluşturarak, baz çiftlerinin mekânsal düzeni yerine oturana kadar metal plakaları ve telleri manipüle ederek keşfettiler. Her iki durumda da, bilim insanları ve mucitler nesneleri manipüle etmek, yapıları görselleştirmek ve fiziksel mekânlar hakkında akıl yürütmek zorunda kaldıklarında, mekânsal zekâ medeniyeti ileriye taşıdı; bunların hiçbiri tek başına metinle anlatılamaz.

Uzamsal Zekâ, bilişimizin üzerine inşa edildiği yapıdır. Pasif bir şekilde gözlemlediğimizde veya aktif olarak yaratmaya çalıştığımızda devreye girer. En soyut konularda bile akıl yürütme ve planlamamızı yönlendirir. Ve sözlü veya fiziksel olarak, akranlarımızla veya çevrenin kendisiyle etkileşim kurma biçimimiz için olmazsa olmazdır. Çoğumuz çoğu gün Eratosthenes düzeyinde yeni gerçekleri ortaya koymasak da, rutin olarak aynı şekilde düşünürüz: karmaşık bir dünyayı duyularımızla algılayarak anlamlandırır, ardından fiziksel ve uzamsal açıdan nasıl işlediğine dair sezgisel bir anlayıştan yararlanırız.

Ne yazık ki, günümüz yapay zekâsı henüz böyle düşünmüyor.

Son birkaç yılda gerçekten de muazzam ilerlemeler kaydedildi. Metinsel verilere ek olarak hacimli multimedya verileriyle eğitilen Çok Modlu Büyük Dil Modelleri (MLLM’ler), uzamsal farkındalığın bazı temellerini ortaya koydu ve günümüzün yapay zekâsı resimleri analiz edebiliyor, bunlar hakkında soruları yanıtlayabiliyor ve hiper gerçekçi görüntüler ve kısa videolar üretebiliyor. Sensörler ve dokunsal teknolojilerdeki atılımlar sayesinde, en gelişmiş robotlarımız son derece kısıtlı ortamlarda nesneleri ve araçları manipüle etmeye başlayabilir.

Ancak gerçek şu ki, yapay zekanın uzamsal yetenekleri hâlâ insan seviyesinden çok uzak. Ve sınırlar hızla kendini gösteriyor. En gelişmiş MLLM modelleri, mesafe, yön ve boyut tahmininde -veya nesneleri yeni açılardan yeniden oluşturarak “zihinsel olarak” döndürmede- nadiren şans eseri elde edilenlerden daha iyi performans gösteriyor. Labirentlerde gezinemez, kısayolları tanıyamaz veya temel fizik kurallarını tahmin edemezler. Yapay zeka tarafından oluşturulan videolar -henüz yeni ve evet, çok havalı- genellikle birkaç saniye sonra tutarlılığını yitiriyor.

Günümüzün en son teknoloji ürünü yapay zekâ, verilerde okuma, yazma, araştırma ve örüntü tanımada mükemmel sonuçlar verebilirken, aynı modeller fiziksel dünyayı temsil ederken veya onunla etkileşim kurarken temel sınırlamalara sahiptir. Dünyaya bakış açımız bütünseldir; yalnızca neye baktığımız değil, her şeyin uzamsal olarak nasıl ilişkili olduğu, ne anlama geldiği ve neden önemli olduğu da önemlidir. Bunu yalnızca betimlemelerle değil, hayal gücü, akıl yürütme, yaratma ve etkileşim yoluyla anlamak, uzamsal zekânın gücüdür. Bu olmadan, yapay zekâ anlamaya çalıştığı fiziksel gerçeklikten kopuk kalır. Arabalarımızı etkili bir şekilde süremez, evlerimizde ve hastanelerimizde robotlara rehberlik edemez, öğrenme ve eğlence için tamamen yeni, sürükleyici ve etkileşimli deneyimler sunamaz veya malzeme bilimi ve tıpta keşifleri hızlandıramaz.

Filozof Wittgenstein bir zamanlar “Dilimin sınırları, dünyamın sınırları demektir” demişti. Ben bir filozof değilim. Ama en azından yapay zekâ için kelimelerden daha fazlası olduğunu biliyorum. Uzamsal zekâ, dilin ötesindeki sınırı temsil eder; hayal gücünü, algıyı ve eylemi birbirine bağlayan ve makinelerin sağlık hizmetlerinden yaratıcılığa, bilimsel keşiflerden günlük yardıma kadar insan yaşamını gerçekten geliştirmesi için olanaklar sunan bir yetenektir.

Yapay zekanın gelecek on yılı: Gerçekten uzamsal olarak zeki makineler inşa etmek

Peki, mekânsal zekâya sahip yapay zekâyı nasıl inşa edeceğiz? Eratosthenes’in vizyonuyla akıl yürütebilen, bir endüstriyel tasarımcının hassasiyetiyle mühendislik yapabilen, bir hikaye anlatıcısının hayal gücüyle yaratabilen ve bir ilk müdahale görevlisinin akıcılığıyla çevreleriyle etkileşim kurabilen modellere giden yol nedir?

Mekânsal olarak zeki yapay zekâ geliştirmek, hukuk yüksek lisansı (LL.M.) programlarından bile daha iddialı bir şey gerektirir: dünya modelleri. Anlamsal, fiziksel, geometrik ve dinamik olarak karmaşık dünyaları (sanal veya gerçek) anlama, akıl yürütme, üretme ve onlarla etkileşim kurma yetenekleri günümüz hukuk yüksek lisans programlarının (LL.M.) çok ötesinde olan yeni bir tür üretken model. Bu alan henüz yeni ve mevcut yöntemleri soyut akıl yürütme modellerinden video üretim sistemlerine kadar uzanıyor. World Labs, 2024 başlarında şu inançla kuruldu: Temel yaklaşımların hâlâ oluşturulmakta olduğu ve bunun önümüzdeki on yılın belirleyici mücadelesi olacağı inancıyla.

Bu gelişmekte olan alanda en önemli şey, gelişime rehberlik eden ilkelerin belirlenmesidir. Mekansal zekâ için dünya modellerini üç temel yetenek üzerinden tanımlıyorum :

  1. Üretken: Dünya modelleri, algısal, geometrik ve fiziksel tutarlılığa sahip dünyalar üretebilir

Mekânsal anlayış ve muhakemenin kilidini açan dünya modelleri, aynı zamanda kendi simüle edilmiş dünyalarını da üretmelidir. İster gerçek ister sanal mekânları temsil etsinler, anlamsal veya algısal talimatları izleyen, geometrik, fiziksel ve dinamik olarak tutarlı kalırken, sonsuz çeşitlilikte ve çeşitlilikte simüle edilmiş dünyalar üretebilmelidirler Araştırma topluluğu, bu dünyaların doğuştan gelen geometrik yapılar açısından örtük mü yoksa açık mı temsil edilmesi gerektiğini aktif olarak araştırmaktadır. Dahası, güçlü gizli temsillere ek olarak, evrensel bir dünya modelinin çıktılarının, birçok farklı kullanım durumu için dünyaların açık ve gözlemlenebilir bir durumunun oluşturulmasına da olanak sağlaması gerektiğine inanıyorum. Özellikle, şimdiki zamana ilişkin anlayışı, geçmişine; mevcut dünyaya yol açan dünyanın önceki durumlarına tutarlı bir şekilde bağlı olmalıdır.

  1. Çok Modlu: Dünya modelleri tasarım gereği çok modludur

Tıpkı hayvanlar ve insanlar gibi, bir dünya modeli de üretken yapay zekâ alanında “komutlar” olarak bilinen girdileri çok çeşitli biçimlerde işleyebilmelidir. Kısmi bilgiler (görüntüler, videolar, derinlik haritaları, metin talimatları, hareketler veya eylemler) verildiğinde, dünya modelleri dünya durumlarını mümkün olduğunca eksiksiz bir şekilde tahmin etmeli veya üretmelidir . Bu, görsel girdileri gerçek görme doğruluğuyla işlerken, anlamsal talimatları da aynı kolaylıkla yorumlamayı gerektirir. Bu, hem aracıların hem de insanların çeşitli girdiler aracılığıyla modelle dünya hakkında iletişim kurmasını ve karşılığında çeşitli çıktılar almasını sağlar.

  1. Etkileşimli: Dünya modelleri, girdi eylemlerine dayalı olarak bir sonraki durumları çıktı olarak verebilir

Son olarak, eylemler ve/veya hedefler bir dünya modelinin isteminin bir parçasıysa, çıktıları dünyanın bir sonraki durumunu, örtük veya açık bir şekilde temsil etmelidir. Girdi olarak yalnızca bir hedef durumu olsun veya olmasın bir eylem verildiğinde, dünya modeli dünyanın önceki durumu, varsa amaçlanan hedef durumu ve anlamsal anlamları, fizik yasaları ve dinamik davranışlarıyla tutarlı bir çıktı üretmelidir. Uzamsal olarak zeki dünya modelleri akıl yürütme ve üretme yeteneklerinde daha güçlü ve sağlam hale geldikçe, belirli bir hedef durumunda dünya modellerinin yalnızca dünyanın bir sonraki durumunu değil, aynı zamanda yeni duruma dayalı sonraki eylemleri de tahmin edebileceği düşünülebilir.

Bu zorluğun kapsamı, yapay zekanın daha önce karşılaştığı her şeyi aşıyor.

Dil, insan bilişinin tamamen üretken bir olgusuyken, dünyalar çok daha karmaşık kurallarla işler. Örneğin, Dünya’da yerçekimi hareketi yönetir, atom yapıları ışığın renkleri ve parlaklığı nasıl ürettiğini belirler ve sayısız fizik yasası her etkileşimi kısıtlar. En hayali, yaratıcı dünyalar bile, onları tanımlayan fizik yasalarına ve dinamik davranışlara uyan uzamsal nesnelerden ve etkenlerden oluşur. Tüm bunları -anlamsal, geometrik, dinamik ve fiziksel- tutarlı bir şekilde uzlaştırmak, tamamen yeni yaklaşımlar gerektirir. Bir dünyayı temsil etmenin boyutluluğu, dil gibi tek boyutlu, ardışık bir sinyalin boyutluluğundan çok daha karmaşıktır. İnsanlar olarak sahip olduğumuz evrensel yetenekleri sunan dünya modellerine ulaşmak, birkaç zorlu teknik engeli aşmayı gerektirecektir. World Labs’da araştırma ekiplerimiz bu hedefe doğru temel ilerleme kaydetmeye adanmıştır.

Güncel araştırma konularımızdan bazı örnekler şunlardır:

  • Eğitim için yeni ve evrensel bir görev fonksiyonu: Hukuk alanında lisans programlarında bir sonraki jeton tahmini kadar basit ve zarif bir evrensel görev fonksiyonu tanımlamak, uzun zamandır dünya modeli araştırmalarının temel hedeflerinden biri olmuştur. Hem girdi hem de çıktı alanlarının karmaşıklığı, böyle bir fonksiyonun formüle edilmesini doğası gereği daha zor hale getirir. Ancak keşfedilmesi gereken çok şey olsa da, bu nesnel fonksiyon ve ilgili temsiller, dünya modellerinin hem hayal gücünün hem de gerçekliğin temellendirilmiş temsilleri olarak temel doğasına saygı göstererek, geometri ve fizik yasalarını yansıtmalıdır.
  • Büyük ölçekli eğitim verileri : Dünya modellerini eğitmek, metin düzenlemesinden çok daha karmaşık veriler gerektirir. Umut verici haber: devasa veri kaynakları zaten mevcut. İnternet ölçeğindeki görüntü ve video koleksiyonları bol miktarda erişilebilir eğitim materyali sunar; zorluk, bu iki boyutlu görüntü veya video karesi tabanlı sinyallerden (yani RGB) daha derin uzamsal bilgiler çıkarabilen algoritmalar geliştirmektir. Son on yılda yapılan araştırmalar, dil modellerinde veri hacmi ve model boyutunu birbirine bağlayan ölçekleme yasalarının gücünü göstermiştir; dünya modelleri için kilit nokta, karşılaştırılabilir ölçekte mevcut görsel verilerden yararlanabilen mimariler oluşturmaktır. Ayrıca, yüksek kaliteli sentetik verilerin ve derinlik ve dokunsal bilgi gibi ek yöntemlerin gücünü de hafife almam. Bunlar, eğitim sürecinin kritik adımlarında internet ölçeğindeki verileri tamamlar. Ancak ileriye giden yol daha iyi sensör sistemlerine, daha sağlam sinyal çıkarma algoritmalarına ve çok daha güçlü sinirsel simülasyon yöntemlerine bağlıdır.
  • Yeni model mimarisi ve temsili öğrenme: Dünya modeli araştırmaları, özellikle mevcut MLLM ve video yayılım paradigmalarının ötesinde, model mimarisi ve öğrenme algoritmalarında kaçınılmaz olarak ilerlemeler sağlayacaktır. Her ikisi de verileri genellikle 1B veya 2B dizilere ayırır; bu da kısa bir videodaki benzersiz sandalyeleri saymak veya bir odanın bir saat önce nasıl göründüğünü hatırlamak gibi basit uzamsal görevleri gereksiz yere zorlaştırır. 3B veya 4B farkında yöntemler gibi alternatif mimariler, imleçleme, bağlam ve bellek için yardımcı olabilir. Örneğin, World Labs’da, gerçek zamanlı üretken çerçeve tabanlı bir model olan RTFM üzerindeki son çalışmamız, üretilen dünyada kalıcılığı korurken verimli gerçek zamanlı üretim elde etmek için uzamsal olarak temellendirilmiş çerçeveleri bir uzamsal bellek biçimi olarak kullanan bu değişimi göstermiştir.

Açıkçası, dünya modellemesi aracılığıyla mekansal zekâyı tam anlamıyla ortaya çıkarmadan önce hâlâ zorlu zorluklarla karşı karşıyayız. Bu araştırma sadece teorik bir çalışma değil. Yeni bir yaratıcılık ve üretkenlik araçları sınıfının temel motoru. Ve Dünya Laboratuvarları’ndaki ilerleme cesaret verici. Kısa süre önce, kullanıcıların ve hikaye anlatıcılarının keşfetmeleri, etkileşim kurmaları ve yaratıcı iş akışlarında daha fazla ilerleme kaydetmeleri için çok modlu girdilerle tetiklenebilen ve tutarlı 3B ortamlar oluşturup sürdürebilen ilk dünya modeli olan Marble’ı sınırlı sayıda kullanıcıyla paylaştık. Ve yakında herkesin kullanımına sunmak için çok çalışıyoruz!

Mermer, gerçekten uzamsal zekâya sahip bir dünya modeli yaratma yolunda attığımız ilk adım. İlerleme hızlandıkça, araştırmacılar, mühendisler, kullanıcılar ve iş liderleri olağanüstü potansiyelini fark etmeye başlıyor. Yeni nesil dünya modelleri, makinelerin uzamsal zekâya tamamen yeni bir düzeyde ulaşmasını sağlayacak; bu da günümüz yapay zekâ sistemlerinde hâlâ büyük ölçüde eksik olan temel yeteneklerin kilidini açacak.

İnsanlar için daha iyi bir dünya inşa etmek amacıyla dünya modellerini kullanmak

Yapay zekanın gelişimini neyin motive ettiği önemlidir. Modern yapay zeka çağını başlatan bilim insanlarından biri olarak motivasyonum her zaman açıktı: Yapay zeka, insan yeteneklerinin yerini almamalı, artırmalıdır. Yıllardır yapay zekanın geliştirilmesini, dağıtımını ve yönetimini insan ihtiyaçlarıyla uyumlu hale getirmek için çalıştım. Günümüzde tekno-ütopya ve kıyamet gibi uç anlatılar bolca mevcut, ancak ben daha pragmatik bir bakış açısına sahip olmaya devam ediyorum: Yapay zeka insanlar tarafından geliştirilir, insanlar tarafından kullanılır ve insanlar tarafından yönetilir. Her zaman insanların inisiyatifine ve onuruna saygı duymalıdır. Sihri, yeteneklerimizi genişletmesinde; bizi daha yaratıcı, bağlantılı, üretken ve tatmin olmuş hale getirmesinde yatar. Mekânsal zekâ bu vizyonu temsil eder: İnsan yaratıcıları, bakıcıları, bilim insanlarını ve hayalperestleri bir zamanlar imkansız olanı başarmaları için güçlendirir. Bu inanç, mekânsal zekânın yapay zekanın bir sonraki büyük sınırı olduğuna olan bağlılığımı yönlendiren şeydir.

Mekansal zekânın uygulamaları farklı zaman dilimlerini kapsar. Yaratıcı araçlar artık ortaya çıkıyor; World Labs’ın Marble’ı bu yetenekleri şimdiden yaratıcıların ve hikaye anlatıcılarının ellerine sunuyor. Robotik, algı ve eylem arasındaki döngüyü geliştirirken iddialı bir orta vadeli ufuk sunuyor. En dönüştürücü bilimsel uygulamalar daha uzun sürecek, ancak insanlığın gelişimi üzerinde derin bir etki vaat ediyor.

Tüm bu zaman çizelgelerinde, insan kapasitesini yeniden şekillendirme potansiyeliyle öne çıkan birkaç alan var. Bu, tek bir ekibin veya şirketin başarabileceğinden çok daha fazlasını, önemli bir kolektif çabayı gerektirecek. Araştırmacılar, yenilikçiler, girişimciler, şirketler ve hatta politika yapıcıların ortak bir vizyon doğrultusunda çalışmasıyla tüm yapay zeka ekosisteminin katılımı gerekecek. Ancak bu vizyonun peşinden gitmeye değer. İşte bu geleceğin neler getireceği:

Yaratıcılık: Hikaye anlatımını ve sürükleyici deneyimleri güçlendirmek

“Yaratıcılık, zekânın eğlenmesidir.” Bu, kişisel kahramanım Albert Einstein’ın en sevdiğim sözlerinden biri. Yazılı dilden çok önce, insanlar hikâyeler anlattılar; onları mağara duvarlarına çizdiler, nesilden nesile aktardılar ve ortak anlatılar üzerine koca kültürler inşa ettiler. Hikâyeler, dünyayı anlamlandırma, mesafe ve zamanın ötesinde bağ kurma, insan olmanın ne anlama geldiğini keşfetme ve en önemlisi, hayatta ve sevgide kendi içimizde anlam bulma biçimimizdir. Günümüzde uzamsal zekâ, temel önemlerine saygı duyan ve etkilerini eğlenceden eğitime, tasarımdan inşaata kadar genişleten anlatıları yaratma ve deneyimleme biçimimizi dönüştürme potansiyeline sahip.

World Labs’ın Marble platformu, film yapımcılarının, oyun tasarımcılarının, mimarların ve her türden hikaye anlatıcısının eline eşi benzeri görülmemiş mekânsal yetenekler ve editoryal kontrol edilebilirlik sunarak, geleneksel 3B tasarım yazılımlarının ek yükü olmadan, tamamen keşfedilebilir 3B dünyaları hızla yaratmalarına ve yinelemelerine olanak tanıyacak. Yaratıcılık her zamanki gibi hayati ve insani olmaya devam ediyor; yapay zeka araçları ise yaratıcıların başarabileceklerini güçlendiriyor ve hızlandırıyor. Bu şunları içerir:

  • Yeni boyutlarda anlatı deneyimleri: Film yapımcıları ve oyun tasarımcıları, bütçe veya coğrafya kısıtlamaları olmadan, geleneksel bir prodüksiyon sürecinde keşfedilmesi zor olan çeşitli sahneleri ve bakış açılarını keşfederek, Marble’ı kullanarak bambaşka dünyalar yaratıyorlar. Farklı medya ve eğlence biçimleri arasındaki çizgiler belirsizleştikçe, sanat, simülasyon ve oyunu harmanlayan, temelde yeni etkileşimli deneyim türlerine yaklaşıyoruz; yalnızca stüdyoların değil, herkesin kendi hikâyelerini yaratıp yaşayabileceği kişiselleştirilmiş dünyalar. Konseptleri ve senaryoları eksiksiz deneyimlere dönüştürmenin daha yeni ve daha hızlı yollarının yükselişiyle, anlatılar artık tek bir ortama bağlı kalmayacak ve yaratıcılar, sayısız yüzey ve platformda ortak bir çizgiye sahip dünyalar inşa edebilecek.
  • Tasarım yoluyla mekânsal anlatılar: Üretilen her nesne veya inşa edilen mekan, fiziksel olarak yaratılmadan önce sanal 3B olarak tasarlanmalıdır. Bu süreç oldukça tekrarlı ve hem zaman hem de para açısından maliyetlidir. Mimarlar, ellerindeki mekânsal olarak akıllı modellerle, tasarımlara aylarca yatırım yapmadan önce yapıları hızla görselleştirebilir ve henüz var olmayan mekanlarda dolaşarak, nasıl yaşayabileceğimiz, çalışabileceğimiz ve toplanabileceğimiz hakkında hikâyeler anlatabilirler. Endüstriyel tasarımcılar ve moda tasarımcıları, nesnelerin insan bedenleri ve mekanlarla nasıl etkileşime girdiğini keşfederek hayal gücünü anında forma dönüştürebilirler.
  • Yeni sürükleyici ve etkileşimli deneyimler: Deneyimin kendisi, bir tür olarak anlam yaratmanın en derin yollarından biridir. İnsanlık tarihi boyunca tek bir 3B dünya vardı: hepimizin paylaştığı fiziksel dünya. Ancak son yıllarda, oyunlar ve erken dönem sanal gerçeklik (VR) sayesinde, kendi yarattığımız alternatif dünyaları paylaşmanın ne anlama geldiğini kavramaya başladık. Şimdi ise, VR ve genişletilmiş gerçeklik (XR) başlıkları ve sürükleyici ekranlar gibi yeni form faktörleriyle birleşen mekansal zekâ, bu deneyimleri benzeri görülmemiş bir şekilde geliştiriyor. Tamamen gerçekleştirilmiş çok boyutlu dünyalara adım atmanın bir kitap açmak kadar doğal hale geldiği bir geleceğe yaklaşıyoruz. Mekansal zekâ, dünya inşa etmeyi yalnızca profesyonel prodüksiyon ekiplerine sahip stüdyolar için değil, aynı zamanda bireysel yaratıcılar, eğitimciler ve paylaşma vizyonu olan herkes için erişilebilir kılıyor.

Robotik: Eylem halindeki somut zeka

Böceklerden insanlara kadar tüm hayvanlar, dünyalarını anlamak, gezinmek ve etkileşim kurmak için uzamsal zekâya ihtiyaç duyar. Robotlar da farklı olmayacak. Uzamsal farkındalığa sahip makineler, Stanford araştırma laboratuvarımda öğrencilerim ve iş arkadaşlarımla yaptığım çalışmalar da dahil olmak üzere, bu alanın başlangıcından bu yana hayalini kurduğu bir şeydi. İşte bu yüzden, World Labs’ın geliştirdiği modeller kullanılarak bu makineleri hayata geçirme olasılığı beni çok heyecanlandırıyor.

  • Dünya modelleri aracılığıyla robotik öğrenmenin ölçeklendirilmesi: Robotik öğrenmenin ilerlemesi, uygulanabilir eğitim verilerinin ölçeklenebilir bir çözümüne bağlıdır. Robotların anlamayı, akıl yürütmeyi, planlamayı ve etkileşim kurmayı öğrenmeleri gereken muazzam olasılık durum uzayları göz önüne alındığında, birçok kişi gerçekten genelleştirilebilir robotlar yaratmak için internet verileri, sentetik simülasyon ve insan gösterilerinin gerçek dünyadan yakalanmasının bir kombinasyonunun gerekli olduğunu varsaymıştır. Ancak dil modellerinin aksine, günümüz robotik araştırmaları için eğitim verileri kıttır. Dünya modelleri bu konuda belirleyici bir rol oynayacaktır. Algısal doğruluklarını ve hesaplama verimliliklerini artırdıkça, dünya modellerinin çıktıları simülasyon ile gerçeklik arasındaki boşluğu hızla kapatabilir. Bu da robotların sayısız durum, etkileşim ve ortamın simülasyonları boyunca eğitilmesine yardımcı olacaktır.
  • Yoldaşlar ve işbirlikçiler: İster laboratuvar tezgahında bilim insanlarına yardım etsinler ister yalnız yaşayan yaşlılara destek olsunlar, robotlar insan işbirlikçileri olarak, daha fazla emek ve üretkenliğe ihtiyaç duyan iş gücünün bir kısmını genişletebilirler. Ancak bunu yapmak, algılayan, akıl yürüten, planlayan ve harekete geçen, aynı zamanda -ve en önemlisi- insan hedefleri ve davranışlarıyla empatik bir uyum içinde kalan uzamsal zekâ gerektirir. Örneğin, bir laboratuvar robotu, bilim insanının el becerisi veya akıl yürütme gerektiren görevlere odaklanabilmesi için aletleri kullanabilirken, bir ev asistanı yaşlı bir kişinin neşesini veya özerkliğini azaltmadan yemek pişirmesine yardımcı olabilir. Bu beklentiyle tutarlı bir sonraki durumu veya hatta eylemleri tahmin edebilen, gerçekten uzamsal zekâya sahip dünya modelleri, bu hedefe ulaşmak için kritik öneme sahiptir.
  • Genişleyen bedensellik biçimleri: İnsansı robotlar, kendimiz için inşa ettiğimiz dünyada bir rol oynuyor. Ancak inovasyonun tüm faydaları çok daha çeşitli tasarımlardan gelecek: ilaç taşıyan nanobotlar, dar alanlarda hareket eden yumuşak robotlar ve derin deniz veya uzay için üretilmiş makineler. Biçimleri ne olursa olsun, gelecekteki mekansal zekâ modelleri hem bu robotların içinde yaşadığı ortamları hem de kendi bedensel algı ve hareketlerini entegre etmelidir. Ancak bu robotları geliştirmedeki temel zorluk, bu geniş bedensellik biçimleri yelpazesinde eğitim verilerinin eksikliğidir. Dünya modelleri, bu çabalar için simülasyon verilerinde, eğitim ortamlarında ve kıyaslama görevlerinde kritik bir rol oynayacaktır.

Daha Uzun Ufuk: Bilim, Sağlık ve Eğitim

Yaratıcı ve robotik uygulamalara ek olarak, mekansal zekanın derin etkisi, yapay zekanın insan yeteneklerini hayat kurtaracak ve keşifleri hızlandıracak şekilde artırabileceği alanlara da yayılacak. Aşağıda, derinlemesine dönüştürücü olabilecek üç uygulama alanını vurguluyorum; ancak mekansal zekanın kullanım alanlarının çok daha fazla sektörde gerçekten kapsamlı olduğunu söylemeye gerek yok.

Bilimsel araştırmalarda mekansal olarak zeki sistemler deneyleri simüle edebilir, hipotezleri paralel olarak test edebilir ve derin okyanuslardan uzak gezegenlere kadar insanların erişemediği ortamları keşfedebilir. Bu teknoloji, iklim bilimi ve malzeme araştırması gibi alanlarda hesaplamalı modellemeyi dönüştürebilir. Çok boyutlu simülasyonu gerçek dünya veri toplama ile entegre ederek, bu araçlar hesaplama engellerini azaltabilir ve her laboratuvarın gözlemleyip anlayabileceği şeyleri genişletebilir.

Sağlık hizmetlerinde , mekansal zekâ laboratuvardan hasta başına kadar her şeyi yeniden şekillendirecek. Stanford’da öğrencilerim ve iş arkadaşlarım hastaneler, yaşlı bakım tesisleri ve ev hastalarıyla uzun yıllar çalıştılar. Bu deneyim, mekansal zekânın buradaki dönüştürücü potansiyeline beni ikna etti. Yapay zekâ, moleküler etkileşimleri çok boyutlu olarak modelleyerek ilaç keşfini hızlandırabilir, radyologların tıbbi görüntülemedeki örüntüleri tespit etmelerine yardımcı olarak tanıları geliştirebilir ve iyileşmenin gerektirdiği insan bağlantısının yerini almadan hastaları ve bakıcıları destekleyen ortam izleme sistemlerini etkinleştirebilir. Robotların sağlık çalışanlarımıza ve hastalarımıza birçok farklı ortamda yardımcı olma potansiyelinden bahsetmeye bile gerek yok.

Eğitimde uzamsal zekâ, soyut veya karmaşık kavramları somutlaştıran ve beyinlerimiz ile bedenlerimizin öğrenme sürecinde nasıl işlediğine dair çok önemli olan yinelemeli deneyimler yaratan sürükleyici öğrenmeyi mümkün kılabilir. Yapay zekâ çağında, daha hızlı ve daha etkili öğrenme ve beceri yenileme ihtiyacı hem okul çağındaki çocuklar hem de yetişkinler için özellikle önemlidir. Öğrenciler, hücresel mekanizmaları keşfedebilir veya çok boyutlu bir ortamda tarihi olaylarda dolaşabilirler. Öğretmenler, etkileşimli ortamlar aracılığıyla eğitimi kişiselleştirmek için araçlara sahip olurlar. Cerrahlardan mühendislere kadar profesyoneller, gerçekçi simülasyonlarda karmaşık becerileri güvenle uygulayabilirler.

Tüm bu alanlarda olasılıklar sınırsızdır, ancak hedef sabittir: İnsan uzmanlığını artıran, insan keşiflerini hızlandıran ve insan bakımını güçlendiren bir yapay zeka; insan olmanın temelini oluşturan yargı, yaratıcılık ve empatinin yerini alan bir yapay zeka değil.

Çözüm

Son on yılda yapay zeka küresel bir fenomen haline geldi ve teknoloji, ekonomi ve hatta jeopolitikada bir dönüm noktası oldu. Ancak bir araştırmacı, eğitimci ve şimdi de girişimci olarak, Turing’in 75 yıllık sorusunun ardındaki ruh hâlâ bana en çok ilham veriyor. Hâlâ onun hayret duygusunu paylaşıyorum. Mekânsal zekânın getirdiği zorluklarla her gün bana enerji veren şey de bu.

Tarihte ilk kez, fiziksel dünyayla o kadar uyumlu makineler üretmeye hazırız ki, karşılaştığımız en büyük zorluklarda onlara gerçek ortaklar olarak güvenebiliriz. İster laboratuvarda hastalıkları anlama biçimimizi hızlandırmak, ister hikâyeleri anlatma biçimimizi kökten değiştirmek, ister hastalık, yaralanma veya yaşlılık gibi en savunmasız anlarımızda bizi desteklemek olsun, hayatın en çok önemsediğimiz yönlerini bir üst seviyeye taşıyan bir teknolojinin eşiğindeyiz. Bu, daha derin, daha zengin ve daha güçlü yaşamlar vizyonudur.

Doğanın atalarımızdaki uzamsal zekânın ilk belirtilerini ortaya çıkarmasından neredeyse yarım milyar yıl sonra, yakında makinelere aynı yeteneği kazandırabilecek teknoloji uzmanları neslinin arasında yer alma şansına sahibiz ve bu yetenekleri dünyanın dört bir yanındaki insanların yararına kullanma ayrıcalığına sahibiz. Gerçekten zeki makineler hayallerimiz, uzamsal zekâ olmadan tamamlanmayacaktır.

Bu arayış benim Kuzey Yıldızım. Bu yolda bana katılın .

Not: Uzamsal zeka konusunda vrdiğimiz linke uaşabilirsiniz. https://en.wikipedia.org/wiki/Spatial_intelligence_(psychology)

 

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

Scroll to Top