GPT-4.5 Turing Testinde İnsan Seviyesinde Performans Gösterdi, Katılımcıların %73'ünü Kandırdı

Düzenleyen: gaya ❤️ one

Yakın zamanda yapılan bir araştırma, OpenAI'ın GPT-4.5 modelinin üç taraflı bir Turing Testinde insan seviyesinde performans gösterdiğini ortaya koydu. California Üniversitesi, San Diego tarafından yürütülen araştırmada, GPT-4.5'in belirli bir kişiliği benimsemesi istendiğinde, vakaların %73'ünde insan olarak tanımlandığı bulundu. Bu, %50'lik temel oranı önemli ölçüde aşıyor ve katılımcıların yapay zekayı (AI) sıklıkla bir insanla karıştırdığını gösteriyor. Çalışmaya, hem bir insanla hem de bir AI modeliyle metin tabanlı konuşmalara katılan yaklaşık 300 katılımcı dahil edildi. Sorgulayıcıların görevi, insan katılımcıyı belirlemekti. AI modelleri iki koşul altında değerlendirildi: minimum talimat istemiyle ve AI'yı insan benzeri bir davranış benimsemesi için yönlendiren geliştirilmiş bir kişilik istemiyle. Araştırmada ayrıca Meta'nın Llama 3.1-405B modeli, OpenAI'ın GPT-4o modeli ve ELIZA olarak bilinen eski bir sohbet robotu da değerlendirildi. Sonuçlar, GPT-4.5'in kişilik istemini kullanırken %73'lük bir başarı oranına ulaştığını gösterdi. Llama 3.1-405B kişilik istemiyle yaklaşık %56'lık bir başarı oranına ulaşırken, GPT-4o kişiliğin olmadığı koşullarda yalnızca %21'lik bir başarı oranına ulaştı. Bu, kişilik isteminin AI'nın insan konuşmasını taklit etme yeteneğini önemli ölçüde geliştirdiğini gösteriyor. Çalışma, AI'nın insan etkileşimini simüle etme yeteneğindeki gelişmeleri vurguluyor ve bu tür bir teknolojinin etkileri hakkında soruları gündeme getiriyor.

Bir hata veya yanlışlık buldunuz mu?

Yorumlarınızı en kısa sürede değerlendireceğiz.