Yeni çalışma, halüsinasyonun, kullanıcıya sunulan yapay zekalı sohbet botlarında kalıcı bir sorun olabileceğine işaret ediyor.
ChatGPT'yi geliştiren yapay zeka firması OpenAI'ın yürüttüğü yeni bir araştırma, büyük dil modellerinin neden “halüsinasyon” olarak bilinen uydurma bilgiler ürettiğini açıklığa kavuşturuyor.
Ancak çalışma, halüsinasyonun, kullanıcıya sunulan yapay zekalı sohbet botlarında kalıcı bir sorun olabileceğine işaret ediyor.
Zira bulgular, yapay zekaların yanlış bilgi vermesinin yalnızca eğitim verisindeki hatalardan değil, dil modellerinin yapısından kaynaklandığını ortaya koyuyor.
Matematiksel açıdan kaçınılmaz
ChatGPT gibi dil modelleri, kullanıcıların sorduğu soru karşısında “Cevabı biliyor muyum?” diye düşünmüyor. Onun yerine, bir cümlede sıradaki kelimeyi tahmin ederek cevap üretiyor.
Örneğin, kullanıcı,“Atatürk hangi yılda doğdu?” diye sorduğunda model bu soruya uygun bir cevap üretmek için “1881” demeli. Ama aslında arka planda yaptığı şey “Bu soruya en uygun sıradaki kelime ne olabilir?” diye hesaplamak. Bazen doğru tahmini yapıyor, bazen de yanlış bir tarih seçiyor.
Sheffield Üniversitesi’nden Doç. Dr. Wei Xing, The Conversation için kaleme aldığı yazısında, "Kelime tahmini üzerine kurulu sistemler, cümle oluştururken hataların birikmesine yol açıyor. Bu nedenle halüsinasyon oranları matematiksel olarak en aza indirilebilse bile tamamen yok edilemiyor," diye yazdı.
"Örneğin, tanınmış kişilerin doğum günleri gibi veriler eğitim setinde yeterince yer almazsa, modeller bu sorularda yüksek oranda yanlış cevap veriyor. Araştırmada, yapay zekaya makale yazarlarından biri olan Adam Kalai’nin doğum günü sorulduğunda, sistem üç farklı ve tamamen hatalı tarih üretmiş."
“Bilmiyorum” demek ceza getiriyor
Araştırmanın dikkat çekici bir diğer bulgusu, mevcut yapay zeka değerlendirme yöntemlerinin sistemi dürüst davranmaya teşvik etmemesi. Google ve OpenAI’ın da kullandığı 10 büyük test seti incelendiğinde, dokuzunda “emin değilim” gibi yanıtların sıfır puanla değerlendirildiği görüldü.
Bu da yapay zekaların “yanlış olsa da bir cevap vermek” yerine “bilmiyorum” demesini ekonomik açıdan mantıksız hale getiriyor. Yani mevcut sistemler, istemeden de olsa tahmin yapmayı ödüllendiriyor.
Çözüm kullanıcı deneyimiyle çatışıyor
OpenAI, yapay zekanın kendi cevaplarına olan güven seviyesini ölçerek buna göre yanıt vermesini öneriyor.
Ancak bu durumda ChatGPT gibi sistemlerin, en az yüzde 30 oranında soruya “bilmiyorum” yanıtı vermesi gerekebilir.
Araştırmaya göre kullanıcılar böyle bir deneyimi tercih etmeyeceği için sistemin cazibesi hızla azalabilir.
Ekonomik engel
Halüsinasyonları azaltmak için güven seviyesi ölçen veya belirsizlikleri azaltmaya çalışan yöntemler uzun zamandır biliniyor. Ancak bu yöntemler çok daha fazla işlem gücü gerektiriyor. Milyonlarca soruyu yanıtlayan tüketici odaklı yapay zekalarda bu maliyet pratikte sürdürülemez hale geliyor.
Buna karşın, tedarik zinciri, finansal işlemler veya tıbbi tanı gibi kritik alanlarda yanlış bilgi maliyeti çok yüksek olduğu için daha pahalı ve belirsizlik odaklı yapay zekaların kullanımı ekonomik açıdan mantıklı hale geliyor.
OpenAI’nin araştırması, tüketiciye dönük yapay zekaların “her soruya yanıt verme” beklentisi ile güvenli ve doğru bilgi sağlama ihtiyacı arasındaki çelişkiye dikkat çekiyor. Donanım gelişmeleri maliyetleri düşürse de, iş modeli değişmediği sürece halüsinasyonların tamamen ortadan kalkması beklenmiyor.