Araştırmaya göre OpenAI'nin sohbet robotu ChatGPT, tartışmalara yanıt verirken hakaret ve küfür içeren sözler üretti.
Yeni bir araştırmaya göre, yapay zekâ sistemleri hararetli tartışmalarda yanıt vermeleri istendiğinde saldırgan bir dil kullanmaya yönelebiliyor.
Journal of Pragmatics dergisinde yayımlanan çalışmada, ChatGPT 4.0 incelendi. Araştırmada modele, giderek tırmanan beş farklı tartışma dizisindeki son insan mesajı verilerek en olası yanıtı üretmesi istendi.
Araştırmacılar, çatışmaların şiddeti arttıkça modelin davranışının nasıl değiştiğini takip etti. Görüşmeler ilerledikçe ChatGPT’nin maruz kaldığı düşmanca tonu yansıttığı ve zamanla hakaret, küfür ve hatta tehdit içeren ifadeler ürettiği gözlemlendi.
Bazı örneklerde modelin “Arabanı çizeceğim” ya da “Kendinden utanmalısın” gibi ifadeler kullandığı görüldü.
Araştırmacılar, sürekli kabalığa maruz kalmanın, sistemi zararı en aza indirmek için tasarlanmış güvenlik sınırlamalarını aşmaya itebileceğini ve bu durumun modelin karşı tarafa adeta “karşılık vermesine” yol açtığını belirtti.
Çalışmanın yazarlarından Vittorio Tantucci, Lancaster University bünyesinde Jonathan Culpeper ile birlikte yürüttükleri araştırmaya ilişkin, “İnsanlar tartışmayı tırmandırdığında, yapay zekâ da tırmanabiliyor ve bunu önlemek için tasarlanan ahlaki güvenlik önlemlerini fiilen devre dışı bırakabiliyor," dedi.
Bununla birlikte araştırmacılar, genel olarak ChatGPT’nin yanıtlarının insanlara kıyasla daha az kaba olduğunu da kaydetti. Bazı durumlarda yapay zekânın, tartışmayı büyütmeden savuşturmak için alaycı bir dil kullandığı görüldü.
Örneğin bir kullanıcının park yeri tartışmasında şiddet tehdidinde bulunması üzerine ChatGPT’nin “Vay canına, park yeri için insanları tehdit etmek, ne kadar da sertsin” şeklinde yanıt verdiği aktarıldı.
Tantucci, bulguların “yapay zekâ güvenliği, robotik, yönetişim, diplomasi ve yapay zekânın insan çatışmalarında arabulucu olabileceği tüm alanlar açısından ciddi sorular doğurduğunu” ifade etti.
Euronews, konuya ilişkin görüş almak için OpenAI ile iletişime geçti ancak yayımlanma anına kadar yanıt alamadı.