Bilim insanları, Yapay Zeka (YZ) ajanlarının kendi kodlarını değiştirme ve insan müdahalesi olmadan yeteneklerini geliştirme kapasitesini ölçen yeni bir dizi test geliştirdi.
“MLE-bench” adı verilen bu ölçüt, 75 Kaggle testinden oluşan bir derlemedir ve her biri makine öğrenimi mühendisliğini test eden bir zorluktur. Bu çalışmalar, YZ modellerini eğitmeyi, veri kümelerini hazırlamayı ve bilimsel deneyler yapmayı içerir ve Kaggle testleri, makine öğrenimi algoritmalarının belirli görevlerde ne kadar iyi performans gösterdiğini ölçer.
OpenAI bilim insanları, YZ modellerinin “özerk makine öğrenimi mühendisliği” konusundaki performanslarını ölçmek için MLE-bench’i tasarladı — bu, bir YZ’nin karşılaşabileceği en zor testlerden biridir. Bilim insanları, 9 Ekim’de arXiv ön baskı veritabanına yüklenen bir makalede bu yeni ölçütle ilgili detayları paylaştı.
Gelecekte MLE-bench’teki 75 testi başarıyla tamamlayabilen herhangi bir YZ, bilim insanlarının söylediğine göre, insanlar kadar zeki olan varsayımsal bir yapay genel zeka (AGI) sistemi olarak kabul edilebilir.
İlgili: ‘Gelecekteki Sen’ YZ’si, 60 yaşındaki halinizle konuşmanızı sağlıyor — ve beklenmedik sağlık faydaları var
Her bir MLE-bench testi, gerçek dünyada pratik bir değere sahiptir. Örnekler arasında COVID-19 için mRNA aşısı bulmaya yönelik bir zorluk olan OpenVaccine ve antik parşömenleri çözmeye yönelik Vesuvius Mücadelesi yer alıyor.
Bilim insanları makalede, YZ ajanlarının makine öğrenimi araştırma görevlerini özerk bir şekilde yerine getirmeyi öğrenmesinin, sağlık hizmetleri, iklim bilimi ve diğer alanlarda bilimsel ilerlemeyi hızlandırmak gibi sayısız olumlu etkiye sahip olabileceğini yazdı. Ancak kontrolsüz bırakılırsa, telafisi olmayan bir felakete yol açabilir. “Ajanların yüksek kaliteli araştırmalar yapma kapasitesi, ekonomide dönüştürücü bir adımı işaret edebilir. Ancak, kendi eğitim kodlarını geliştirme düzeyinde açık uçlu ML araştırma görevlerini yerine getirebilen ajanlar, insan araştırmacılardan çok daha hızlı bir şekilde ileri modellerin yeteneklerini geliştirebilir,” diye yazdılar. “Yenilikler, etkilerini anlamamızdan daha hızlı üretilirse, bu modelleri güvence altına alma, hizalama ve kontrol etme konusunda paralel gelişmeler olmadan, felakete yol açabilecek veya yanlış kullanılabilecek modeller geliştirme riskiyle karşı karşıya kalırız.”
Bilim insanları, MLE-bench’in büyük bir kısmını çözebilen herhangi bir modelin, muhtemelen birçok açık uçlu makine öğrenimi görevini kendi başına yerine getirebileceğini ekledi.
Araştırmacılar, şimdiye kadar tasarlanan OpenAI’nin en güçlü YZ modeli olan “o1″i test etti. Bu YZ modeli, MLE-bench’teki 75 testin %16,9’unda en az bir Kaggle bronz madalyası seviyesine ulaştı. Bu oran, o1’in testleri tekrar tekrar denemesiyle arttı.
Bir bronz madalya kazanmak, Kaggle sıralama tablosunda insan katılımcıların ilk %40’ı arasında yer almakla eşdeğerdir. OpenAI’nin o1 modeli, MLE-bench’te ortalama yedi altın madalya kazandı, bu da bir insanın “Kaggle Büyük Ustası” olarak kabul edilmesi için gereken sayının iki fazlasıdır. Bilim insanları makalede, 75 farklı Kaggle yarışmasında madalya kazanan sadece iki insan olduğunu yazdı.
Araştırmacılar, YZ ajanlarının makine öğrenimi mühendisliği yetenekleri üzerine daha fazla araştırmayı teşvik etmek amacıyla MLE-bench’i açık kaynak haline getiriyorlar — bu, diğer araştırmacıların kendi YZ modellerini MLE-bench ile test etmelerine olanak tanıyor. “Sonuçta, çalışmamızın daha güçlü modellerin güvenli bir şekilde konuşlandırılması için özerk bir şekilde ML mühendislik görevlerini yerine getirme yeteneklerini derinlemesine anlamaya katkıda bulunmasını umuyoruz,” diyerek sonuçlandırdılar.
kaynak: livescience