Yapay Zekâ Otofajisi: Sentetik Veri Kullanımı Model Çöküşüne Yol Açabilir
Üretken yapay zekâ modellerinin sentetik verilerle eğitilmesi, zamanla kalite ve çeşitlilik kaybına neden olarak "model otofaji bozukluğu"na yol açabilir. Rice Üniversitesi'nde yapılan araştırmaya göre, bu döngü internetin veri ekosistemini bozarak yapay zekâ modellerinin işlevselliğini tehlikeye atabilir.

Gelişmiş yapay zekâ modelleri, büyük miktarda veriyle eğitilerek kod, metin, görüntü ve video üretebiliyor. Ancak bu süreç, giderek artan bir veri kıtlığı ile karşı karşıya. Rice Üniversitesi Dijital Sinyal İşleme Grubu tarafından yürütülen bir araştırma, bu sorunun çözümü olarak önerilen sentetik veri kullanımının, yapay zekâ modelleri için ciddi riskler barındırdığını ortaya koydu.
Sentetik Veri Kullanımı Model Çöküşüne Neden Olabilir
Araştırmada, yapay zekâ modellerinin kendi ürettikleri verilerle eğitilmeye devam etmesi halinde, "model otofaji bozukluğu" olarak adlandırılan bir çöküş sürecine girebileceği belirtildi. Elektrik ve Bilgisayar Mühendisliği Profesörü Richard Baraniuk, bu durumu şöyle açıklıyor:
“Sentetik verilerle model eğittiğinizde kaçınılmaz olarak bir döngüye giriyorsunuz. Buna otofajik döngü veya kendi kendini tüketen döngü diyoruz. Araştırmalarımız, bu tür bir eğitimin birkaç nesil sonrasında modellerin düzeltilmesi mümkün olmayan şekilde bozulduğunu gösteriyor.”
Veri Döngüleri Yapay Zekânın Kalitesini Nasıl Etkiliyor?
Araştırmacılar, üç farklı eğitim döngüsünü inceledi:
- Tamamen Sentetik Döngü: Model, tamamen sentetik verilerle eğitildi.
- Sentetik Artırım Döngüsü: Gerçek veriler sabit tutulurken, her nesilde sentetik veriler eklendi.
- Taze Veri Döngüsü: Her yeni nesilde, önceki verilerin yanı sıra yeni gerçek veriler eklendi.
Sonuçlar, yapay zekâ modellerinin eğitimi sırasında ne kadar fazla gerçek veri kullanılırsa, modellerin o kadar sağlıklı çalıştığını gösterdi. Taze verilerin eksik olduğu durumlarda ise üretilen içeriklerin zamanla bozulduğu gözlemlendi.
İnternetin Veri Ekosistemi Tehlikede mi?
İnternet, yapay zekâ modellerini eğitmek için kullanılan temel veri kaynağı. Ancak sentetik verilerin internet ortamına sızması, yeni modellerin eğitiminde kullanılan veri havuzunu bozabilir. Bu durum, modellerin ürettikleri içeriklerin giderek daha hatalı, tekdüze ve düşük kaliteli hale gelmesine neden olabilir.
Profesör Baraniuk, bu sürecin internetin bilgi ekosistemine zarar verebileceğini vurgulayarak şu değerlendirmede bulundu:
"Üretken modeller yaygınlaştıkça ve sentetik verilerle eğitilmeye devam ettikçe, yapay zekâların zamanla 'kafayı yemesi' kaçınılmaz hale geliyor. Eğer yeterince taze veri sağlanmazsa, gelecekte eğitilecek yapay zekâ modelleri ciddi bozulmalar yaşayacak."
Araştırmacılar, sentetik veri kullanımının uzun vadede internet üzerindeki bilgi çeşitliliğini azaltabileceğini ve yapay zekâ modellerinin işlevselliğini büyük ölçüde tehlikeye atabileceğini belirtiyor.
CUMHA - CUMHUR HABER AJANSI