Araştırma: Yapay zekâ ilk hasta tanısında vakaların yüzde 80'inden fazlasında başarısız oldu

Araştırma, yapay zeka sohbet robotlarının ön safta klinik kullanım için henüz hazır olmadığını gösteriyor. - © Cleared/Canva

By Marta Iraola Iribarren

Yayınlanma Tarihi 14/04/2026 - 7:00 GMT+2•Son güncelleme 8:45

Yeni bir çalışmaya göre, yapay zekâ dil modelleri uygun bir erken tanı koymakta vakaların yüzde 80’inden fazlasında başarısız oluyor. Bu da henüz denetimsiz klinik kullanım için güvenli olmadıklarını gösteriyor.

Yeni bir araştırmaya göre üretken yapay zekâ (AI), klinikte güvenli biçimde kullanılabilmesi için gereken muhakeme süreçlerinden hâlâ yoksun.

REKLAM

Boston merkezli, kâr amacı gütmeyen bir hastane ve araştırma ağı olan ve ABD'nin en büyük sağlık sistemlerinden biri sayılan Mass General Brigham'daki araştırmacılara göre, AI sohbet botları kapsamlı klinik bilgiler verildiğinde tanı koymadaki doğruluklarını artırdı, ancak uygun bir ayırıcı tanı üretme konusunda vakaların yüzde 80'inden fazlasında yine de başarısız oldu.

Açık erişimli tıp dergisi JAMA Network Open'da yayımlanan çalışmanın sonuçları, büyük dil modellerinin (LLM'ler) klinik kullanım için gereken muhakeme becerilerinin gerisinde kaldığını ortaya koydu.

Çalışmanın ortak yazarı Marc Succi, "Süregelen iyileştirmelere rağmen, hazır paket büyük dil modelleri gözetimsiz şekilde klinik düzeyde devreye sokulmaya hazır değil," dedi.

Ayrıca, klinik muhakemenin merkezinde yer alan ve kendisinin "tıbbın sanatı" olarak nitelendirdiği ayırıcı tanıyı yapay zekanın henüz taklit edemediğini vurguladı.

Ayırıcı tanı, sağlık profesyonellerinin benzer belirtiler gösteren diğer olgulardan ayırt ederek bir hastalığı saptamasında ilk adımı oluşturuyor.

Modeller nasıl test edildi?

Araştırma ekibi, Claude, DeepSeek, Gemini, GPT ve Grok'un en güncel sürümlerinin de aralarında bulunduğu 21 büyük dil modelinin işleyişini inceledi.

LLM'ler, PrIME-LLM adı verilen yeni geliştirilmiş bir araç kullanılarak 29 standartlaştırılmış klinik vaka senaryosu üzerinden değerlendirildi.

Bu araç, bir modelin klinik muhakemenin farklı aşamalarındaki yetkinliğini değerlendiriyor: ilk tanının konulması, uygun tetkiklerin istenmesi, kesin tanıya ulaşılması ve tedavinin planlanması.

Klinik vakaların nasıl ilerlediğini simüle etmek için araştırmacılar, önce hastanın yaşı, cinsiyeti ve belirtileri gibi temel bilgilerle başlayarak, ardından fizik muayene bulguları ve laboratuvar sonuçlarını ekleyerek modellere kademeli olarak bilgi sundu.

Gerçek klinik ortamda bir sonraki aşamaya geçebilmek için ayırıcı tanı kritik öneme sahip. Ancak çalışmada, ayırıcı tanı adımında başarısız olsalar bile modellerin sıradaki aşamaya geçebilmesi için ek bilgiler verildi.

Araştırmacılar, dil modellerinin kesin tanıda yüksek doğruluk oranlarına ulaştığını, ancak ayırıcı tanı üretme ve belirsizlikle başa çıkma konusunda zayıf performans sergilediğini tespit etti.

Çalışmanın yazarlarından Arya Rao, LLM'lerin adım adım değerlendirilmesinin, onları birer sınav çözücüsü olarak görmekten öteye geçip bir doktorun yerine koyduğunu belirtti.

Veriler tamamlandığında bu modellerin kesin tanıyı koymada çok başarılı olduğunu, ancak bilginin sınırlı olduğu bir vakanın açık uçlu başlangıç aşamasında zorlandığını da ekledi.

Araştırmacılar, tüm modellerin vakaların yüzde 80'inden fazlasında uygun bir ayırıcı tanı üretemediğini ortaya koydu.

Kesin tanıda ise başarı oranları modele bağlı olarak yaklaşık yüzde 60'tan yüzde 90'ın üzerine kadar değişti.

LLM'lerin çoğu, metne ek olarak laboratuvar sonuçları ve görüntüleme verileri sağlandığında doğruluk oranlarını artırdı.

Sonuçlar, Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash ve Gemini 3.0 Pro'nun yer aldığı, performansı en yüksek modellerden oluşan bir küme ortaya koydu.

Sağlık profesyonellerinin rolü hâlâ belirleyici

Bununla birlikte yazarlar, sürümler arasındaki iyileştirmelere ve muhakemeye yönelik optimize edilmiş modellerin avantajlarına rağmen, hazır paket LLM'lerin güvenli biçimde kullanılabilmek için gereken zekâ düzeyine henüz ulaşmadığını ve gelişmiş klinik muhakemeyi sergileme konusunda sınırlı kaldığını vurguladı.

Succi, "Bulgularımız, sağlık alanında kullanılan büyük dil modellerinin hâlâ sürece dâhil bir insana ve çok sıkı denetime ihtiyaç duyduğunu bir kez daha gösteriyor," dedi.

Çalışmada yer almayan, İspanya Aile ve Toplum Hekimliği Derneği'nin Yapay Zekâ ve Dijital Sağlık çalışma grubundan Susana Manso García ise bulguların kamuoyu için net bir mesaj içerdiğini söyledi.

"Çalışmanın bizzat kendisi, bunların [dil modellerinin] gözetim olmaksızın klinik kararlar almak için kullanılmaması gerektiğinde ısrar ediyor. Bu nedenle yapay zeka umut verici bir araç olsa da insan klinik yargısı vazgeçilmez olmaya devam ediyor" dedi.

"Kamuya yönelik öneri ise bu teknolojileri temkinli kullanmak ve herhangi bir sağlık sorunuyla karşılaşıldığında mutlaka bir sağlık profesyoneline başvurmak."

Erişilebilirlik kısayollarına git

Araştırma: Yapay zekâ ilk hasta tanısında vakaların yüzde 80'inden fazlasında başarısız oldu

Yeni bir çalışmaya göre, yapay zekâ dil modelleri uygun bir erken tanı koymakta vakaların yüzde 80’inden fazlasında başarısız oluyor. Bu da henüz denetimsiz klinik kullanım için güvenli olmadıklarını gösteriyor.

Modeller nasıl test edildi?

Sağlık profesyonellerinin rolü hâlâ belirleyici

Bu haberler de ilginizi çekebilir

Danimarkalı Novo Nordisk, ilaç geliştirme sürecinde yapay zeka için OpenAI ile ortaklık kurdu

Uzmanlar tartışıyor: 'Süper El Nino' mu geliyor?

Uzay yolculuğu insan bedenini nasıl etkiliyor?

AB, Rusya'ya karşı yaptırımlarda uzlaştı: Yunanistan'a LNG muafiyeti

Özgür Özel ve 91 vekil CHP'den istifa etti: Yeni Parti kuruluyor

Perseid meteor yağmuru başladı: Son 20 yılın en iyi şöleni olacak

Nolan etkisiyle yeniden yükselişte: Yunan mitolojisi bilginizi sınayın

8 soruda Özgür Özel'in yeni partisi: Neler bekleniyor?