
Ignacio de Gregorio
OpenAI, kendini tebrik edercesine, geliştirdikleri bir yapay zeka modelinin bu yılki Uluslararası Matematik Olimpiyatı’nda (IMO) altın madalya kazandığını duyurdu. Bu, genel bir modelin gerçekten zorlu bir kıyaslamada bu kadar yüksek puan alması anlamına geliyor ve bir yapay zekayı matematikte dünyanın en iyi liselileriyle aynı seviyeye getiriyor.
Peki bu gerçekten bazılarının iddia ettiği gibi tarihi bir başarı mı?
Yapay zekada her zaman olduğu gibi, görünenin ötesinde şeyler var. Gerçek ise olağanüstü başarılar, şüpheler ve bir miktar kötü zevkin bir karışımı .
Kazanmak Kazanmaktır
Öncelikle, her yapay zeka sürümüne karşı doğal şüpheciliğimin yargımı bulandırmasına izin vermemeliyim. Kazanç, kazançtır ve bu, yapay zeka için büyük bir kazançtır.
Gezegenin en zorlu insan yarışmalarından birinde altın madalya kazanan bir yapay zekaya sahip olmamız gerçekten olağanüstü bir şey.
Bugünkü analizim, birçok kişinin kabul etmek istediğinden daha fazla gölge olmasına rağmen, bunun gerçekten inanılmaz olduğu gerçeğini gölgelememeli.
Ama öncelikle IMO nedir?
En gençlerimiz arasında en iyilerin en iyisi
Uluslararası Matematik Olimpiyatı (IMO) , ilk olarak 1959 yılında Romanya’da sadece yedi ülkenin katılımıyla düzenlenen dünyanın önde gelen lise matematik yarışmasıdır ve o zamandan beri beş kıtadan 100’den fazla ülkeyi kapsayacak şekilde büyümüştür.
Katılımcı ülkelerin her biri, ülkeden ülkeye değişen, çok aşamalı ve titiz bir ulusal süreçle seçilen, üniversiteye hazır en fazla altı öğrenciden oluşan bir ekip gönderebilir.
En iyilerin en iyisi.
Yarışma iki gün boyunca devam edecek. Yarışmacılar, her biri yedi puan değerinde olan ve cebir, kombinatorik, sayılar teorisi ve geometri konularını kapsayan altı zorlu, ispata dayalı problemle karşılaşacaklar. Bu problemleri çözmek yaratıcılık, sağlam akıl yürütme ve iyi hazırlanmış argümanlar gerektiriyor.
Öğrenciler, yalnızca yazı materyalleriyle ve dışarıdan yardım almadan tek başlarına otururlar. Uluslararası bir akademik uzman ekibi, öğrencilerin çözümlerini değerlendirir ve toplam 42 puan üzerinden hesaplanan bireysel puanlara göre madalyalar (altın, gümüş, bronz ve mansiyon ödülleri) verilir.
Örnek olarak, bu yıl altın madalya 35 puandan itibaren belirlendi. Sorular o kadar zor ki, birini bile doğru cevaplamak size “mansiyon ödülü” kazandırıyor.
Peki OpenAI’nin modeli ne yaptı?
Makinelerin ilk altın skoru
OpenAI , 2025 turnuvasında altın madalya seviyesinde bir performans sergileyerek son dönemde gündemde yer aldı .
Aynı – iddiaya göre, buna birazdan değineceğiz – insan katılımcılarla aynı koşullar altında (iki adet 4,5 saatlik oturum, hiçbir araç veya internet yok, doğal dilde yazılmış kanıtlar), deneysel LLM’leri altı problemden beşini çözdü ve altın madalya için baraj olan 42 üzerinden 35 puan aldı .
Bu, birçok katılımcının hala yapay zekayı yenmeyi başardığı anlamına geliyor.
Ancak bu başarıyı diğerlerinden ayıran şey yalnızca sonuç değil, aynı zamanda araçtır: Bu, DeepMind’ın geçen yıl gümüş madalya kazanan AlphaGeometry’si gibi özel bir geometri motoruyla değil, genel amaçlı bir akıl yürütme LLM’si ile başarılmıştır.
Başka bir deyişle, bu, Google DeepMind’ın AlphaGo/AlphaZero (ilk süper insan yapay zekaları) veya yukarıda bahsedilen AlphaGeometry gibi durumlarda yaptığı gibi, bu yarışma için özel olarak oluşturulmuş bir model değildi; bu, yarışma düzeyindeki matematikte de oldukça yetenekli olan, ‘birçok sanatta’ eğitilmiş genelci bir modeldi.
İlk bakışta tarihi bir olay gibi görünüyor. Ama eğlence burada bitiyor ve sonuca ne kadar çok bakarsanız, benim de kafamda o kadar çok soru oluşuyor.
Her şeye ‘iddia edilen’ kelimesini ekleyin yeter.
Dikkat edilmesi gereken ilk önemli nokta, sonuçların resmi olmaması, yani kuruluş ekibinin OpenAI’nin sonuçlarını doğrulayamamış olmasıdır.
IMO örgütünün Başkanı aracılığıyla açıkladığı gibi:
Yapay zeka modellerinin matematiksel yeteneklerinde ilerleme görmek çok heyecan verici, ancak IMO’nun kullanılan hesaplama miktarı, insan müdahalesi olup olmadığı veya sonuçların yeniden üretilip üretilemeyeceği de dahil olmak üzere yöntemleri doğrulayamayacağını açıkça belirtmek isteriz . Şunu söyleyebiliriz ki, ister en zeki öğrenciler ister yapay zeka modelleri tarafından üretilmiş olsun, doğru matematiksel kanıtlar geçerlidir.– IMO Başkanı Gregor Molinar.
Başka bir deyişle, OpenAI dışında hiç kimse bu başarının ne kadar gerçek olduğunu bilmiyor ve bizim en iyi seçeneğimiz onların dürüstlüğüne güvenmek ve bu çığır açan sonuç hakkında tamamen dürüst olduklarını varsaymaktır.
OpenAI, sınavın resmi kısıtlamalar (en azından yapay zekanın soruları çözmek için sahip olduğu zaman açısından, yani insanlarınkiyle eşit) ve format altında gerçekleştirildiğini iddia ediyor.
Yine de, OpenAI geçmiş yarışmalardan üç altın madalyalı yarışmacının çözümleri incelediğini belirtmesine rağmen ( hiçbiri IMO koordinatörü olarak doğrulanmamıştı , yani sınavı resmi olarak gözden geçiren kimse yoktu), bunun gerçekten doğru olup olmadığını onlar dışında kimse bilmiyor . Çözümler açık kaynaklıdır, incelemek isterseniz diye .
Eğer yapay zekaları kontrollü, doğrulanabilir bir ortamda test etmenin önemine ikna olmadıysanız, gezegenin en ünlü matematikçisi ve bazılarının iddiasına göre en zeki kişi olan Terence Tao , yapay zeka modellerinin kontrolsüz, doğrulanabilir olmayan yollarla test edilmesine öfkelendi ve bir çocuk ile bir yapay zeka arasında elma ile elma karşılaştırmasının, her ikisinin de aynı kısıtlamalar altında çalıştığını doğrulayamadığımız sürece kabul edilemez olduğunu söyledi.
Tao’nun bu çıkışının OpenAI’dan mı yoksa genel olarak AI rekabet modellerinden mi kaynaklandığı belirsiz.
Daha da kötüsü, duyuru büyük bir tartışmayla karşılandı , çünkü bazı kişiler kuruluşun yapay zeka şirketlerinden (yarışmaya katılan tek şirket OpenAI değildi) gerçek yıldızların, yani çocukların dikkatini çekmemek için duyuruyu ertelemelerini istediğini iddia ediyor.
OpenAI bu konuda uyarıldığını reddetti , ancak kuruluşun OpenAI’nin duyurusunu beklemediği için “kaba” bulduğu ve yarışmaya katılan diğer yapay zeka şirketlerinin sonuçlarının 28’ine kadar ertelenmesinin istendiğini kabul ettiği bildirildi .
Özetle, iddia edilen sonuçlar ve zamanlama konusunda kötü bir yaklaşım. OpenAI için pek de iyi bir görünüm değil.
Ancak tartışmaları bir kenara bırakarak, burada benim için en önemli tartışma konusu olan konuyu gündeme getirmek istiyorum: Bunun gerçekten olağanüstü bir şey mi, yoksa tamamen abartılmış bir olay mı olduğu .
Gerçek Genelleme mi Değil mi?
Burada anlaşılması gereken en önemli nokta, atılımın sonucun kendisi değil, bu sonuca nasıl ulaşıldığıdır.
Genelleme Zekadır
AI Labs makine zekası yaratmak istediklerini söylediklerinde dolaylı olarak ‘genelleme’ kavramına atıfta bulunuyorlar.
Yani, bir yapay zeka modeli, verilerden öğrendiklerini yeni verilere uygulayabiliyorsa bir dereceye kadar “zeka” sahibi olduğunu kanıtlamış olur. Başka bir deyişle, onu belirli bir veri kümesi üzerinde eğitir ve ardından sonuçları, modelin daha önce görmediği verilerle yeni bir veri kümesinde doğrularsınız.
Model hâlâ iyi çalışıyorsa, verilerde gerekli “soyutlamaları” öğrenip bunları başka yerlerde de uygulayabildiği anlamına gelir. Aksi takdirde, modelin gerçekten anlamlı bir şey öğrendiğini söyleyemeyiz, sadece sonuçları ezberlediğini söyleyebiliriz.
Önemli olarak, genelleme davranışının iki türünü ayırt ediyoruz:
Dağıtım içi (ID) genelleme: Modelin yeni verilerle iyi çalışması, ancak daha önce gördüğü verilere çok benzemesi (örneğin, geçmiş matematik olimpiyatları testlerinde eğitilmesi, 2025 sınavında test edilmesi).
Dağıtım dışı (OOD) genelleme: Modelin daha önce gördüğü her şeyden çok farklı olan verilere genelleme yapması (yani, onu matematik ve diğer bilimlerde test edin, ancak matematik olimpiyatlarında iyi olmak istemiyorsanız, onu matematik olimpiyatlarında test edin).
Yapay zeka tarihinde kimlik genellemesi birçok kez başarılmış olsa da, tarihte gerçek bir OOD genellemesinin tek bir örneğinin olduğunu düşünmüyorum ve bugünkü görevim sizi bunun da olmadığına ikna etmek.
Bunları birbirinden ayırmanın en iyi yollarından biri, yirminci yüzyıl İsviçreli psikolog Jean Piaget’nin zeka tanımını kullanmaktır. Piaget zekayı “Ne yapacağınızı bilmediğinizde kullandığınız şey” olarak tanımlamıştır.
Öyleyse…
Kimlik genellemesi hala “bilinen bilinmeyenler” üzerinde akıl yürütmedir ,
OOD genellemesi , başlangıçta hiçbir fikriniz olmayan sorunları çözmek için “bilinmeyen bilinmeyenler” üzerinde düşünmektir .
Gerçek zamanlı geri bildirim döngüleri (tahmin ve doğrulama) olmadan OOD genellemesinin mümkün olmadığı yönünde güçlü bir iddia var; bu da yapay zekaların açıkça yoksun olduğu bir tür gözlemsel veya algısal mekanizma gerektirir.
Yani, Büyük Dil Modelleri’nin (LLM) OOD’ye çok yakın olduğunu söyleyebilseniz de, cevap tam olarak öyle değil.
Bunun nedeni, modelin neyi bildiği ve neyi bilmediği arasında net bir çizginin standart makine öğrenmesinde net bir şekilde uygulanabilmesine rağmen, LLM’lerde bu çizginin bulanıklaşmasıdır.
LLM’lerin Garip Gerçekliği
LLM’ler, insanlığın bildiği her bir kamu veri noktası ve Yapay Zeka Laboratuvarlarının milyarlarca dolar harcadığı devasa bir özel veri kümesi üzerinde eğitim almışlardır. Bir bakıma, gerçekte ne bildiklerini gizlerler .
Aslında, bu modellerle etkileşim kurma sanatı olan ‘hızlı mühendislik’, modelin bilmediği şeyleri (çok düşük olasılıklı tahminler) ortaya çıkarmasına yardımcı olma egzersizi olarak görülebilir.
Pratikte bu, yeni problemlerin model için ne kadar ‘yeni’ olduğunu kesin olarak söyleyemeyeceğimiz anlamına gelir ; bu da modelin öğrenilmiş soyutlamaları yeni verilere gerçekten uygulayıp uygulamadığını veya zaten bildiği şeyleri kusup kusmadığını kesin olarak bilmediğimiz anlamına gelir.
Bununla birlikte, görevlerin modeller için yeni olduğuna dair daha yüksek bir kesinlik derecesinin olduğu kıyaslamalarda, performans özellikle iyi değil; örneğin ARC-AGI 2’de en iyi model olan Grok 4 Thinking %16 puan alıyor . Buna karşılık, insan paneli %100 doğruluk oranına ulaşıyor.
ARC-AGI ekibi, Grok’un sonuçlarını ilk ‘yukarıdaki gürültü’ olarak kabul etti; bu da böyle bir sonucun yalnızca şansa atfedilemeyeceği anlamına geliyor. Şans zaten oldukça sıra dışı bir durum, ancak yine de görevlilerin modellerinin zekası hakkında yaptıkları büyük iddiaları desteklemek için yeterli değil .
Bütün bunlar, yapay zekada sonuçların önemli olduğunu, ancak zekayla ilgili iddialarda sürecin daha önemli olduğunu söylemek için.
Bugünkü durumda, sorunların daha bu hafta yayınlanmış olması nedeniyle yeni olduğu kesindi. Ancak, OpenAI’nin sonuçlarına yönelik şüphecilik tam da bu noktada belirginleşiyor.
Eğitmek mi, Eğitmemek mi?
Öncelikle, daha önce de belirttiğimiz gibi, OpenAI bile bu modelin geçmiş eğitimlerinde OpenAI’nin bilgisi olmadan benzer bir durumla karşılaşmadığını garanti edemez.
Bu pek olası değil, ancak garanti de edilemez, bu yüzden gerçek genelleme (OOD) hakkındaki iddialara büyük bir şüpheyle yaklaşılmalıdır .
Ayrıca, onların da doğruladığı gibi, modelin genelci olduğunu ancak açıkça matematik için eğitildiğini biliyoruz . Ve burada semantik önemlidir.
Buna “deneysel araştırma modeli” diyorlar ; bu, şu anda sahip olduğumuz modellerin hiçbiri değil (ve aylarca yayınlanmayacak).
Modelin ‘genel’ olduğunu iddia ediyorlar, ancak aynı zamanda bunun “insan matematikçilerin düzeyinde karmaşık, su geçirmez argümanlar üretebilecek şekilde” eğitildiğini de belirtiyorlar .
Model, önemli miktarda takviyeli öğrenme eğitimine (zorlu problemlerde iyi yanıtları ödüllendirerek ve kötü yanıtları cezalandırarak matematik gibi alanlardaki eğitim modelleri) katlanmış olmalı; çünkü model zaman zaman İngilizce konuşma kapasitesini kaybetmiştir ; bu, artan ölçekli RL eğitim rejimlerinde tipik bir durumdur.
Dolayısıyla buradaki asıl soru şudur: Eğer istihbarat iddialarını ciddiye almak için yeniliği garanti etmemiz gerekiyorsa, model için sorunlar ne kadar yeniydi?
Elbette, ‘tamamen alaycı bir tavır’ takınıp tüm olayın bütünlüğünden şüphe edebiliriz; insanların önce sorunları kendileri çözerek (IMO’ya göre dünyadaki herhangi bir organizasyondan daha fazla altın madalyalı OpenAI’ye sahip) yardımcı olup olmadıklarını, sonuçları modele aktarıp sonra test edip etmediklerini bilmiyoruz.
Elbette bu, sınavdan önce sonuçları bir insana vermekten farksız, düpedüz hile olurdu . Ama onlara bir şans verelim ve bunun olmadığını varsayalım.
Google , dakikalar önce sunduğu Gemini Deep Think modelinin de aynı sonucu elde ederek altın madalya kazandığını ve OpenAI’nin sonuçlarının aksine kuruluş tarafından doğrulandığını duyurdu. Google bunu temiz bir şekilde yaptıysa, OpenAI’nin de aynısını yaptığına inanmaya meyilliyim.
Ancak genellemenin gerçek boyutu hakkındaki endişelerim her ikisi için de geçerli, çünkü her iki eğitim dağılımına da sahip değiliz.
Yine de cevaplanmamış başka sorular var. Modelin benzer matematik problemleri üzerinde aktif olarak eğitilmediğini nasıl biliyoruz?
Eğer bu doğru olsaydı, sorunlar başarıyla çözülse bile, çok tanıdık geleceğinden OOD genellemesini tamamen terk etmek zorunda kalırdık.
Buradaki sorunlu nokta ise, emsal teşkil eden bir geçmişimizin olması. o3 tüm detaylarıyla duyurulduğunda, lansmanı hızlandırmak için kullanılan temel sonuçlardan biri de FrontierMath’teki etkileyici sonucuydu.
Bu kıyaslama ölçütünün tamamen yeni olduğu, düşünebileceğiniz en dağıtım dışı matematiksel kıyaslama olduğu iddia ediliyordu ve o3 modeli yine de %25 aldı , gerçekten etkileyiciydi… ta ki modelin o kıyaslamanın eğitim veri kümesi üzerinde eğitildiğini öğrenene kadar.
Basitçe söylemek gerekirse, benzer problemler üzerinde eğitilmişti. Bu, genelleme iddialarını geçersiz kılmasa da, OOD değil, ID olduğunu kanıtladı; model, test edilmeden önce benzer problemlerle karşılaşmıştı, yani tamamen yeni değillerdi.
Ama bana göre sorun daha derin. Etkileyici olsa da, model zekasını bu ölçütleri kullanarak değerlendirmememiz gerektiğini düşünüyorum .
Görev Karmaşıklığı ve Görev Tanıdıklığı
Yapay zekanın zekasını insan ölçütlerine göre değerlendirme konusunda takıntılı olmaya devam ediyoruz.
Ancak, yapay zekaların pek çok şey hakkında pek çok bilgi gördüğünü ve bu nedenle ‘zekiliklerini’ görev karmaşıklığına göre değerlendirmenin yanıltıcı olduğunu unutuyoruz; çünkü ezberlenemeyecek bir görev karmaşıklığı üst sınırı yoktur .
Yani, ne kadar zor olursa olsun, çözülmüş her problem ezberlenebilir. Dolayısıyla, bu kadar çok bilgi görmüş modellerle uğraşıyorsak, çok benzer problemler görüp görmediklerinden veya veri kirliliği nedeniyle (isteyerek veya istemeyerek) ezberleyip ezberlemediklerinden emin olamayız. Bu tür olaylara tepkimiz konusunda çok metanetli olmalıyız.
Bunun yerine, araştırmacı François Chollet’nin, modelleri yabancılığa göre değerlendirmemiz gerektiği , çözebilecekleri en zor yabancı problemin ne kadar zor olduğu, OOD genellemesini gerçekten test etme veya ezberlemenin hiçbir faydası olmayan problemleri çözme konusunda haklı olduğunu düşünüyorum.
Ancak o zaman, Jean Piaget’nin zekâ tanımından ilham alarak, gerçek zekâyı inşa ettiğimize dair güçlü bir iddiada bulunabiliriz.
Ancak, bunu daha ekonomik odaklı bir notla bitirmek istiyorum: Bu modellerin iddia edildiği kadar akıllı olmaması, toplum için aşırı derecede yıkıcı olmadıkları anlamına gelmiyor.
Dünyayı Değiştirmek İçin Gerçek Zeka Gerekmiyor
Birçok kişi yapay zekanın gerçek zekası ile sosyal ve ekonomik dinamikleri değiştirme kapasitesi arasında güçlü bir korelasyon olduğunu düşünüyor.
Katılmıyorum.
Yapay zekanın dünyayı tamamen değiştirebileceğine, trilyonlarca dolarlık ekonomik değer yaratabileceğine ve yine de gerçek zeka eylemleri olduğuna inandığım şeyi karşılayamayacağına kesinlikle inanıyorum.
Çünkü gerçek şu ki, çoğu durumda zekiymiş gibi davranması yeterli . Yapay zekamın iş sürecimi otomatikleştirmek için gerçek bir zeka gösterip göstermediği umurumda değil, yeter ki bunu iyi yapsın. Ve eğer bunun için eğitim verimiz varsa, model bunu iyi yapacaktır.
Önemli olan bir yapay zekanın bir görevi yapıp yapamayacağı değil, onu eğitmek için elimizde veri olup olmadığıdır.
Önemli olan bu. Bu anti-abartılı hikayeyi, yapay zekanın ekonomi üzerindeki etkisini göz ardı etmek olarak algılamayın. Bana göre, zekaya doğru ilerlemede tamamen duraklama yaşasak bile, yine de büyük bir bozulma yaşayabiliriz.
Çünkü gerçek şu ki: tüketiciler ve işletmeler umursamıyor.
Yapay zekanın zeki olup olmaması, sorunlarını çözdüğü sürece umurlarında olmaz. Patronlar, işinizin artık insanlara ihtiyaç duymayacağı bir noktaya ulaşabildikleri sürece yapay zeka ajanlarının ‘gerçekten zeki’ olup olmadıklarını umursamazlar.
Sizden ucuzsa, eskimiş olursunuz, yapay zekada bile ezberden başka bir şey yoktur.
Bu yazıyı, OpenAI ve Google’ın Uluslararası Matematik Olimpiyatları’nda kazandığı altın madalyalar hakkındaki heyecan balonlarını patlatmak için yazma ihtiyacı hissetsem de, bunun sizi şu gerçeklerden uzaklaştırmasına izin vermeyin:
- Hala baş döndürücü ilerleme hızları görüyoruz.
- İstihbarat iddialarına karşı ileri sürdüğüm karşı argümanların çoğu aylar içinde doğruluğunu yitirecek.
- Ve bu gezegendeki hiçbir şirket Excel çalışma sayfalarına ‘gerçek zekayı’ bir faktör olarak koymuyor; onlar performans-maliyet oranına bakıyorlar, nokta.
‘Model zekası’, sektördeki ilerlemeyi sunmanın eğlenceli bir yoludur; ancak gerçekten önemli olanla karşılaştırıldığında hiçbir şekilde alakalı değildir: Yapay zeka işi yapabilir mi?
Hiçbir zaman zekayla ilgili olmadı, her zaman parayla ilgiliydi.
https://medium.com/@ignacio.de.gregorio.noblejas/ais-first-gold-medal-history-or-hoax-03718f4c88cc