Teknoloji

Apple’dan Yapay Zeka Gerçeğine Sert Fren: 'Muhakeme' Modelleri Karmaşık Görevlerde Çöküyor

Apple araştırmacıları, büyük teknoloji şirketlerinin yapay zeka sistemlerine dair öne sürdüğü iddiaları sarsacak yeni bir çalışma yayımladı. Muhakeme yeteneğiyle tanıtılan modeller, karmaşık görevlerde ciddi şekilde başarısız oldu.

Nurullah Şeker

Haziran 11, 2025 - 15:40

Apple’dan yapay zekanın muhakeme kabiliyetine dair çarpıcı araştırma
Apple’ın 7 Haziran’da kendi makine öğrenimi platformunda yayımladığı akademik çalışma, muhakeme yeteneğine sahip olduğu iddia edilen yapay zeka modellerinin karmaşık görevler karşısında nasıl çöktüğünü ortaya koydu.

Araştırmada, OpenAI (o1 ve o3), DeepSeek (R1), Anthropic (Claude 3.7 Sonnet) ve Google (Gemini) gibi önde gelen firmaların modelleri dört klasik mantık bilmecesiyle test edildi: nehirden geçme, dama atlamaca, blok dizme ve Hanoi Kulesi. Bilmece seviyeleri düşük, orta ve yüksek karmaşıklıkta ayarlandı.

Sonuçlar beklentilerin çok altında
Testlerde ilginç bulgular ortaya çıktı. Düşük karmaşıklık seviyelerinde klasik büyük dil modelleri daha iyi performans gösterdi. Orta seviyede muhakeme sistemleri avantaj sağlarken, yüksek karmaşıklık seviyesinde ise tüm modeller başarısız oldu.

Araştırmacılar, modellerin karmaşık sorunlarda düşünce süreçlerini temsil eden “token” kullanımını azalttığını tespit etti. Bu durum, yapay zekanın düşünme ve mantık yürütme kapasitesinin belirli bir eşikte çöktüğünü gösteriyor.

Hatta bazı durumlarda, çözüm algoritması açıkça verildiğinde bile başarı sağlanamadı. Örneğin, Hanoi Kulesi’nde 100 adımı doğru yapan modeller, nehirden geçme bilmecesinde yalnızca 5 hamlede başarısız oldu.

Halüsinasyon oranları yüksek
OpenAI’ın kendi raporları da bu iddiaları destekler nitelikte. o1 modelinde hatalı bilgi üretme oranı yüzde 16 olarak belirlenirken, o3’te bu oran yüzde 33, o4-mini modelinde ise yüzde 48’e kadar çıkıyor.

Değerlendirme sistemleri de sorgulanıyor
Apple araştırmacıları ayrıca mevcut yapay zeka değerlendirme yöntemlerinin doğruluğunu da sorguladı. Matematik ve kodlama testlerinin, modellerin eğitim verilerinde daha önce gördüğü örnekleri içerme ihtimaline dikkat çekildi. Bu durum, muhakeme becerisinin değil ezberin test edildiği anlamına gelebilir.

Apple’ın stratejisine dair eleştiriler de gündemde
Apple’ın kendi yapay zeka stratejisi, bulut yerine cihaz içi verimli sistemler geliştirmeye odaklanıyor. Ancak Siri’nin, ChatGPT’ye kıyasla yüzde 25 daha az doğru yanıt verdiğini gösteren analizler, bu stratejiyi tartışmaya açtı.

Emekli bilgisayar bilimcisi Pedro Domingos sosyal medyada şu paylaşımı yaptı: ‘Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak.’

Öte yandan uzmanlar, Apple’ın yayımladığı bu hakemli çalışmanın, yapay zekaya dair abartılı beklentiler karşısında önemli bir uyarı işlevi gördüğünü savunuyor.

Yapay zeka uzmanı Andriy Burkov, ‘Apple, LLM’lerin yalnızca nöral ağlardan oluştuğunu ve klasik sınırlamalara sahip olduklarını gösterdi’ açıklamasını yaptı.

Kaynak: CUMHA - CUMHUR HABER AJANSI