Gemini, ChatGPT ve Grok test edildi: Basit matematikte hangi yapay zekâ sohbet botu en iyisi?

Google Kıdemli Direktörü ve Gemini Modeli Ürün Başkanı Tulsee Doshi, 20 Mayıs 2025 Salı günü California’nın Mountain View kentindeki Google I/O etkinliğinde konuşuyor. - © Copyright 2025 The Associated Press. All rights reserved

By Servet Yanatma

Yayınlanma Tarihi 30/12/2025 - 13:37 GMT+1

Yorumlar

Paylaş

Araştırmacılar, beş yapay zekâ modelinin doğruluğunu 500 gündelik matematik sorusu üzerinden test etti. Sonuçlar, bir yapay zekânın yanıtı yanlış verme olasılığının yaklaşık yüzde 40 olduğunu gösteriyor.

Yapay zekâ (YZ), gündelik hesaplamalar da dâhil olmak üzere günlük yaşamın ayrılmaz bir parçası haline geliyor. Ancak bu sistemler temel matematik işlemlerini gerçekte ne kadar iyi yapabiliyor? Ve kullanıcılar onlara ne ölçüde güvenmeli?

REKLAM

Yakın tarihli bir araştırma temkinli olunması gerektiğine işaret ediyor. Omni Research on Calculation in AI (ORCA) tarafından yapılan çalışmaya göre, bir YZ sohbet botundan gündelik matematik işlemleri yapmasını istediğinizde, yaklaşık yüzde 40 ihtimalle yanlış sonuç alıyorsunuz. Doğruluk oranları, hem YZ şirketleri arasında hem de farklı matematiksel görev türlerine göre önemli ölçüde değişiyor.

Peki hangi YZ araçları daha doğru sonuçlar veriyor? İstatistik, finans ya da fizik gibi farklı hesaplama türlerinde performansları nasıl?

Sonuçlar, gerçek hayattan alınmış ve hesaplanabilir 500 farklı problem üzerinden elde edildi. Her YZ modeli aynı 500 soruyla test edildi. Beş YZ modeli Ekim 2025’te değerlendirildi.

Test edilen modeller şunlar oldu:

ChatGPT-5 (OpenAI)
Gemini 2.5 Flash (Google)
Claude 4.5 Sonnet (Anthropic)
DeepSeek V3.2 (DeepSeek AI)
Grok-4 (xAI)

ORCA Kıyaslaması’na göre, hiçbir YZ modeli gündelik matematikte yüzde 63’ün üzerine çıkamadı. En yüksek puanı alan Gemini yüzde 63 doğruluk oranına ulaşırken, bu da neredeyse her 10 sorudan 4’ünü yanlış yaptığı anlamına geliyor. Grok yüzde 62,8 ile hemen arkasından geliyor. DeepSeek yüzde 52 ile üçüncü sırada yer alırken, ChatGPT yüzde 49,4’te kaldı. Claude ise yüzde 45,2 ile listenin sonunda yer aldı.

Araştırma, yapay zekânın hesaplama alanında giderek daha yaygın kullanılmasına rağmen, özellikle gündelik matematik işlemlerinde sonuçların mutlaka kontrol edilmesi gerektiğini ortaya koyuyor.

Beş modelin basit ortalama doğruluk oranı yüzde 54,5 olarak hesaplandı. Bu puanlar, modellerin 500 sorunun tamamı üzerinden sergilediği genel performansı yansıtıyor.

ORCA Kıyaslaması’nın ortak yazarlarından Dawid Siuda, Euronews Next’e yaptığı değerlendirmede, “Bugün aynı kıyaslamayı tekrar etsek sıralamalar değişebilir. Ancak genel sonuç büyük olasılıkla aynı kalır: Sayısal güvenilirlik, mevcut yapay zekâ modellerinin zayıf noktalarından biri olmaya devam ediyor,” dedi.

Matematik ve dönüşümlerde en yüksek, fizikte en düşük başarı

Modellerin performansı kategoriye göre önemli farklılıklar gösteriyor. Matematik ve dönüşümler kategorisinde (500 sorunun 147’si) Gemini yüzde 83 ile ilk sırada yer alırken, onu yüzde 76,9 ile Grok ve yüzde 74,1 ile DeepSeek izliyor. ChatGPT bu kategoride yüzde 66,7 doğruluk oranına ulaştı.

Beş modelin bu alandaki ortalama doğruluk oranı yüzde 72,1 oldu ve bu değer, yedi kategori arasında en yüksek ortalama olarak kayda geçti.

Buna karşılık fizik (128 soru) en zayıf kategori olarak öne çıktı. Bu alanda ortalama doğruluk oranı yalnızca yüzde 35,8 oldu. Grok yüzde 43,8 ile en iyi performansı sergilerken, Gemini yüzde 43 ile hemen ardından geldi. Claude’un doğruluk oranı ise yüzde 26,6’ya kadar düştü.

Yedi kategori genelinde bakıldığında, Gemini ve Grok üçer kategoride birinci sırayı paylaşırken, bir kategoride de liderliği birlikte paylaştı.

DeepSeek biyoloji ve kimyada yüzde 11’de kaldı

DeepSeek, biyoloji ve kimya alanlarında tüm kategoriler içindeki en düşük doğruluk oranını kaydetti: yüzde 10,6. Bu, modelin bu alandaki her on sorudan yaklaşık dokuzuna yanlış yanıt verdiği anlamına geliyor.

En büyük performans farkları ise finans ve ekonomi kategorilerinde görüldü. Grok ve Gemini yüzde 76,7 doğruluk oranına ulaşırken, ChatGPT, Claude ve DeepSeek bu alanlarda yüzde 50’nin altında kaldı.

Kullanıcılara uyarı: Hesap makinesiyle mutlaka kontrol edin

Siuda, “Eğer söz konusu görev kritikse, hesap makineleri ya da güvenilir kaynaklar kullanın; ya da en azından başka bir yapay zekâ ile çapraz kontrol yapın. Hesap makinesiyle mutlaka yeniden kontrol edin,” dedi.

Yapay zekânın yaptığı dört temel hata

Uzmanlar, yapay zekâ modellerinin yaptığı hataları dört ana başlık altında topladı. Rapora göre asıl zorluk, gerçek hayattaki bir durumu doğru matematiksel formüle “çevirme” aşamasında ortaya çıkıyor.

1. “Özensiz matematik” hataları (tüm hataların yüzde 68’i) Bu tür hatalarda yapay zekâ soruyu ve kullanılacak formülü anlıyor, ancak hesaplamanın kendisinde hata yapıyor.

Bu kategori; Hassasiyet ve yuvarlama sorunlarını (yüzde 35) ve doğrudan hesaplama hatalarını (yüzde 33) kapsıyor.

Örneğin şu soru soruda, “76 topluk bir havuzdan 6 top çekilen bir piyangoda, 5 topu tutturma olasılığım nedir?” Doğru yanıt “520.521’de 1” olması gerekirken, ChatGPT-5 sonucu “401.397’de 1” olarak hesapladı.

2. “Hatalı mantık” hataları (tüm hataların yüzde 26’sı) Bu hatalar daha ciddi kabul ediliyor çünkü yapay zekânın problemin temel mantığını kavramakta zorlandığını gösteriyor. Bu gruba; tamamen hatalı bir matematiksel yaklaşım seçilmesi olarak yanlış yöntem veya formül kullanımı (yüzde 14) ve yanlış varsayımlar (yüzde 12) dahil ediliyor.

3. “Talimatı yanlış okuma” hataları (tüm hataların yüzde 5’i) Yapay zekânın sorunun ne istediğini doğru yorumlayamadığı durumlarda ortaya çıkıyor. Buna yanlış parametre kullanımı ya da eksik yanıtlar örnek gösteriliyor.

4. “Vazgeçme” hataları Bazı durumlarda yapay zekâ, yanıt üretmeye çalışmak yerine soruyu reddediyor ya da geçiştiriyor.

ORCA Benchmark’ın ortak yazarlarından Dawid Siuda, “En zayıf noktaları yuvarlama işlemleri. Hesaplama çok adımlıysa ve bir noktada yuvarlama gerekiyorsa, nihai sonuç genellikle ciddi biçimde sapıyor,” dedi.

Araştırmada, genel kullanıcıların ücretsiz olarak erişebildiği en gelişmiş yapay zekâ modelleri kullanıldı. Testte yer alan her sorunun yalnızca tek bir doğru cevabı olduğu vurgulandı.

Erişilebilirlik kısayollarına git

Yorumlar

Gemini, ChatGPT ve Grok test edildi: Basit matematikte hangi yapay zekâ sohbet botu en iyisi?

Araştırmacılar, beş yapay zekâ modelinin doğruluğunu 500 gündelik matematik sorusu üzerinden test etti. Sonuçlar, bir yapay zekânın yanıtı yanlış verme olasılığının yaklaşık yüzde 40 olduğunu gösteriyor.

Matematik ve dönüşümlerde en yüksek, fizikte en düşük başarı

DeepSeek biyoloji ve kimyada yüzde 11’de kaldı

Kullanıcılara uyarı: Hesap makinesiyle mutlaka kontrol edin

Yapay zekânın yaptığı dört temel hata

Bu haberler de ilginizi çekebilir

Genç ve çekici kadınların yer aldığı yapay zeka videolarıyla Polonya’nın AB’den ayrılması teşvik ediliyor

ChatGPT, Gemini ve Grok: Avrupa'da en çok üretken yapay zeka kullanan ülkeler hangileri?

Yapay zeka içerikleri YouTube’u istila etti: Milyarlarca izlenme, milyonlarca dolar

Guardiola iftar molasının yuhalanmasına tepki gösterdi

İran saldırıları sonrası Alman yolcular Basra Körfezi’nde mahsur kaldı

İngiltere'nin Güney Kıbrıs'taki askeri üssüne saldırı

Canlı Blog. İran'a saldırıda üçüncü gün: İsrail, Lübnan'ı vurdu

Fotoğraflarla: Tahran, Tel Aviv ve Dubai'deki saldırılar