Yapay zekalar, dilbilgisini denklemden çıkaran dil testinde başarısız oluyor

Yapay zekalar, dilbilgisini denklemden çıkaran dil testinde başarısız oluyor

Şubat 27, 2025
konu yorum

Üretken yapay zeka sistemleri – ve ler gibi – doktor ya da avukat olmak isteyenlerden beklenen zorlu sınavları geçebilmektedir. nda çoğu insandan daha iyi performans gösterebilmekte, iddialı şiirler yazabilmekte, estetik açıdan hoş tablolar üretebilmekte ve özgün müzik besteleri yapabilmektedirler.

Bu olağanüstü yetenekler, sistemlerinin insan işlerinin yerini alıp neredeyse toplumun her alanında büyük etki yaratacakmış gibi görünmesine neden olabilir. Ancak, çıktılarının kalitesi bazen insanlarınkiyle yarışır seviyeye ulaşsa da, çoğu zaman kendinden emin bir biçimde gerçeğe aykırı bilgiler üretebilme eğilimindedirler. Şüpheciler, bu sistemlerin mantık yürütme kabiliyetini de sorgulamışlardır.

Büyük dil modelleri, insan dilini ve düşüncesini taklit etmek üzere inşa edilmiştir; fakat insan olmaktan çok uzaktırlar. İnsanlar bebeklikten itibaren sayısız duyusal deneyim ve çevreleriyle etkileşim yoluyla öğrenirken, büyük dil modelleri insanların öğrendiği biçimde öğrenmezler – bunun yerine, verinin büyük bir bölümünün internetten elde edildiği devasa veri yığınları üzerinde eğitilirler.

Bu modellerin yetenekleri oldukça etkileyicidir; sizin yerinize toplantılara katılabilen, alışveriş yapabilen veya sigorta taleplerinizi halledebilen yapay zeka ajanları bile bulunmaktadır. Ancak, önemli bir görevde büyük dil modeline anahtarı teslim etmeden önce, onların dünya anlayışının insanlarla kıyaslandığında nasıl olduğunun dikkatlice değerlendirilmesi önemlidir.

Dil ve anlam üzerine çalışan bir araştırmacı olarak, araştırma grubum büyük dil modellerinin anlamı kavrama konusundaki sınırlamalarını anlamamıza yardımcı olabilecek yeni bir ölçüt geliştirdi.

Basit Kelime Kombinasyonlarının Anlamını Kavrama

Peki, büyük dil modelleri için “anlamlı” olan nedir? Testimiz, iki kelimeden oluşan isim-isim ifadelerin anlamlılığını değerlendirmeyi içeriyor. Akıcı İngilizce konuşan çoğu kişi için “beach ball” (plaj topu) veya “apple cake” (elmalı kek) gibi isim-isim çiftleri anlam ifade ederken, “ball beach” (top plaj) veya “cake apple” (kek elma) gibi ifadeler yaygın olarak benimsenmiş bir anlama sahip değildir. Bu durumun nedeni dilbilgisiyle ilgili değildir; aksine, bu ifadeler insanlar arasında zamanla konuşma ve etkileşim yoluyla öğrenilmiş ve anlamlı kabul edilmiştir.

Büyük dil modelinin kelime kombinasyonlarına insanlar gibi anlam yükleyip yükleyemeyeceğini görmek amacıyla, tanınabilir bir anlamı olup olmadığını belirlemede dilbilgisi kurallarının yetersiz kalacağı isim-isim çiftleri kullanarak bir test geliştirdik. Örneğin, “red ball” (kırmızı top) gibi bir sıfat-isim çifti anlamlı iken, bunun yer değiştirmiş hali “ball red” (top kırmızı) anlamsız bir kelime kombinasyonu ortaya koyar.

Bu ölçüt, büyük dil modeline kelimelerin ne anlama geldiğini sormaz. Bunun yerine, basit dilbilgisi mantığına bel bağlamadan kelime çiftlerinden ni test eder. Test, objektif bir doğru cevabı değerlendirmekten ziyade, büyük dil modellerinin insanların sahip olduğu anlamlılık duygusuna benzer bir anlayışa sahip olup olmadığını ölçer.

Daha önce insan değerlendiriciler tarafından 1’den “hiç anlamlı değil” ile 5’e “tamamen anlamlı” arasında derecelendirilen toplam 1.789 isim-isim çiftinden oluşan bir koleksiyon kullandık. Orta dereceli çiftleri elerek, yüksek ve düşük anlamlılık seviyelerine sahip ifadeler arasında net bir ayrım sağladık.

Ardından, önceki çalışmada insan katılımcıların aynı şekilde değerlendirmeleri istenen eş kelime çiftlerini, son teknoloji büyük dil modellerine de aynı talimatlarla değerlendirmeleri için sunduk. Büyük dil modelleri düşük performans sergiledi. Örneğin, “cake apple” ifadesi insanlar tarafından 0 ile 4 arasında bir ölçek üzerinde ortalama yaklaşık 1 olarak düşük anlamlılıkta değerlendirildi. Ancak, tüm büyük dil modelleri bu ifadeyi, insanların yapacağı puanlamanın %95’inden daha yüksek bir anlamlılıkta, 2 ile 4 arasında değerlendirerek çok daha anlamlı buldu. “Dog sled” gibi anlamlı ifadeler için fark bu kadar geniş değildi; yine de bazı büyük dil modelleri bu tür ifadeleri, insanların %95’inden daha düşük puanlarla değerlendirdi.

Büyük dil modellerine yardımcı olabilmek amacıyla, yüksek anlamlı ile anlamsız kelime çiftleri arasındaki farkı daha iyi kavrayabilmeleri için talimatlara daha fazla örnek ekledik. Performansları hafifçe iyileşse de, hala insan performansının çok altında kaldı. Görevi daha da basitleştirmek için, büyük dil modellerinden ifadenin mantıklı olup olmadığına dair ikili (evet ya da hayır) bir yargı vermelerini istedik; yani anlamlılık seviyesini 0’dan 4’e kadar bir ölçek yerine basit bir mantıklılık kararı vermelerini talep ettik. Bu durumda, GPT-4 ve Claude 3 Opus diğerlerine kıyasla daha iyi performans gösterdi – fakat yine de insan performansının oldukça gerisindeydiler.

Yaratıcılıkta Aşırılık

Sonuçlar, büyük dil modellerinin insanlar gibi anlam çıkarma yeteneklerine sahip olmadığını göstermektedir. Burada dikkat edilmesi gereken nokta, testimizin insanların verdiği puanları altın standart olarak kabul ettiği öznel bir görev üzerine kurulmuş olmasıdır. Akıl yürütme, planlama veya kod üretimi gibi tipik büyük dil modeli değerlendirme ölçütlerinde nesnel doğru bir cevap aranırken, burada böyle bir nesnellik bulunmamaktadır.

Düşük performansın temelinde, büyük dil modellerinin isim-isim çiftlerinin anlamlılık derecesini fazla abartma eğiliminde olmaları yatmaktadır. Anlam ifade etmemesi gereken şeyleri anlamlı hale getirmeye çalışıyorlardı; başka bir deyişle, modeller aşırı yaratıcı davranıyorlardı. Olası bir açıklama, düşük anlamlılıkta olan kelime çiftlerinin belirli bağlamlarda anlamlı olabileceği yönündedir. Örneğin, toplarla kaplı bir plaj “ball beach” (top plaj) olarak adlandırılabilir. Ancak, İngilizce konuşanlar arasında bu isim-isim kombinasyonunun yaygın bir kullanımı yoktur.

Büyük dil modelleri, bazı görevlerde insanları kısmen veya tamamen yerinden edebilmek için, dünyanın mantığını insanlara daha yakın bir şekilde kavrayabilmeleri adına daha da geliştirilmelidir. Bir hata ya da kötü niyetli bir saldırı sonucu işler belirsiz, kafa karıştırıcı veya tamamen saçma hale geldiğinde, modellerin neredeyse her şeyi yaratıcı bir biçimde anlamlandırmaya çalışmak yerine bunu işaretlemeleri önemlidir.

Örneğin, otomatik olarak e-postalara yanıt veren bir yapay zeka ajanı, yanlışlıkla başka bir kullanıcıya ait bir mesaj alırsa, uygun yanıt “Üzgünüm, bu mantıklı değil” şeklinde olmalıdır; yaratıcı bir yorum yapmaktansa durumu belirtmesi tercih edilir. Benzer şekilde, bir toplantıda birisi anlaşılmaz yorumlar yaptığında, toplantıya katılan ajanın bu yorumların mantıksız olduğunu belirtmesini isteriz. Ajana, “Bu, farklı bir sigorta talebiyle ilgili konuşuluyor gibi görünüyor” demesi, yalnızca “talep reddedildi” demesinden çok daha yerinde olur.

Başka bir deyişle, bir yapay zeka ajanının her zaman yaratıcı yorumlar sunmasından ziyade, belirsizlik durumunda insan gibi davranması ve benzer bir anlam duygusuna sahip olması daha önemlidir.

Sınav yöneticisi ve 1995 Jeopardy! Şampiyonlar Turnuvası galibi

Latest from BİLİM

Ekonomik Sarmal: Enflasyon Nerede Takılıyor?
Önceki Hikaye

Ekonomik Sarmal: Enflasyon Nerede Takılıyor?

İmralı’dan Tarihi Dönemeç: PKK Silahlarını Bırakmalı”
Sonraki Hikaye

İmralı’dan Tarihi Dönemeç: PKK Silahlarını Bırakmalı”

Git

Don't Miss