Son testler, güncellenmiş modellerin halüsinasyon konusunda öncekilerden daha kötü performans sergilediklerini gösterdi.
Yeni bir araştırma, OpenAI gibi şirketlerin son aylarda güncellediği yapay zeka sohbet botlarında halüsinasyon sorununun kötüleştiğini ortaya koydu.
Şirketler daha güvenilir yanıtlar üretmesi için botları güncelliyor. Ancak son testler, güncellenmiş modellerin halüsinasyon konusunda öncekilerden daha kötü performans sergilediklerini gösterdi.
Sohbet botlarının kullanıcıların sorularına cevaben tamamen uydurma bilgiler verdiği durumlara "halüsinasyon" deniyor. Halüsinasyon, yapay zeka botlarıyla ilgili en çok dile getirilen sorunlardan biri.
OpenAI'ın son modellerinin değerlendirildiği şirket teknik raporu, nisan ayında piyasaya sürülen o3 ve o4-mini modellerinin, 2024 sonlarında çıkan önceki o1 modelinden önemli ölçüde daha yüksek halüsinasyon oranlarına sahip olduğunu ortaya koydu.
New Scientist'e göre, testlerde o3 modeli yüzde 33 oranında halüsinasyon görürken, o4-mini yüzde 48 oranında halüsinasyon gördü. o1'in halüsinasyon oranı ise yüzde 16'ydı.
Ancak sorun OpenAI modelleriyle sınırlı değil. Halüsinasyon oranlarını değerlendiren Vectara şirketi, Çinli DeepSeek firmasının R1'i de dahil olmak üzere bazı "akıl yürütme" modellerinin, geliştiricilerinin önceki modellerine kıyasla halüsinasyon oranlarında çift haneli artışlar gördüğünü kaydetti.
Princeton Üniversitesi'nden Arvind Narayanan, New Scientist'e yaptığı açıklamada sorunun halüsinasyonun ötesine geçtiğini söyledi.
Buna göre modeller bazen güvenilmez kaynaklardan yararlanma veya güncel olmayan bilgiler kullanma gibi başka hatalar da yapıyor.