Uzun zamandır merakla beklenen GPT-4.5 öngörülen deprem etkisini yaratamadı ama araştırmacılar arasında ciddi tartışmalara neden oldu.
ABD'li yapay zeka firması OpenAI, kısa süre önce piyasaya sürdüğü son dil modeli ChatGPT-4.5'i "şimdiye kadarki en büyük ve en bilgili modelimiz" diye niteliyor. Ancak bazı uzmanlar bundan şüpheli.
Uzun zamandır merakla beklenen GPT-4.5 öngörülen deprem etkisini yaratamadı ama araştırmacılar arasında ciddi tartışmalara neden oldu. Bazı uzmanlar, modelin son derece pahalı olduğunu ve performansın bu maliyete değmediğini söylerken, OpenAI GPT-4.5'in incelikli ayrıntılara sahip olduğu için anlaşılamadığını savunuyor.
Peki OpenAI, GPT-4.5 ile gerçekten de "çuvalladı" mı?
'Hiçburger' ve 'limon'a benzetildi
OpenAI'ı sık sık eleştiren yapay zeka yazarı Gary Marcus, GPT-4.5'i "hiçburger (nothingburger)" diye niteledi. Öte yandan Marcus, zaten OpenAI'ın modellerinin genel olarak abartıldığını düşünen biri.
Ars Technica'ya konuşan ve adını açıklamak istemeyen bir başka araştırmacı ise yeni modeli limona benzetti. Modelin performansını çarpıcı biçimde artan maliyetiyle karşılaştıran araştırmacı, "GPT-4.5 bir limon!" ifadelerini kullandı.
GPT-4.5'in girdi maliyeti GPT-4.0'dan 30 kat, çıktı maliyeti de 15 kat fazla. TechCrunch'ın bildirdiğine göre, OpenAI her bir milyon token için 75 dolar gibi büyük bir ücret talep ediyor. Burada 1 milyon token, modelin 750.000 kelime işlemesi anlamına geliyor.
Buna rağmen yeni model, testlerde şirketin GPT-o1 ve o3 modellerinden önemli ölçüde geride kaldı.
AIME matematik testinde model, yüz üzerinden 36,7 puan alırken, o3 mininin puanı 87,3'tü. Üstelik GPT-4.5, girdi işlemede o1'den beş kat ve o3-mini'den 68 kat daha pahalı. Ayrıca iki modele kıyasla daha yavaş.
Teknoloji yatırımcısı Paul Gauthier, GPT-4.5'in kodlama yeteneği üzerinde bağımsız testler gerçekleştirdi ve modelin genel yetenek açısından 10. sırada yer aldığını belirtti. Claude 3.7 Sonnet'nin en üstte yer aldığı bu sıralamada o1 ve o3 modelleri de GPT-4.5'in üzerinde.
GPU'lar tükendi
Modelin çok fazla kaynak kullandığı ve bu yüzden pahalı olduğu belirtiliyor.
Şirketin CEO'su Sam Altman, yakın zamanda X'te paylaştığı bir gönderide ellerindeki GPU'ların (yapay zeka modellerini çalıştırmak için kullanılan grafik işleme birimleri) tükendiğini ve bu nedenle dağıtımını kademeli olarak yapmak zorunda kaldıklarını söyledi.
"Gelecek hafta on binlerce GPU ekleyeceğiz ve sonra artı kademeye çıkaracağız. Bu şekilde çalışmak istemiyoruz, ancak GPU kıtlığına yol açan büyüme artışını kesinkes tahmin etmek zor."
Bu itiraf, OpenAI'ın yapay zeka dil modellerinin ne kadar yüklü miktarda donanıma ihtiyacı olduğunu gözler önüne seriyor. Zira şirketler, özellikle önde gelen çip üreticisi NVIDIA'nın GPU'ları olmak üzere bu türden donanımları güvence altına almak için adeta yarışıyor.
Altman daha önce, hesaplama gücündeki eksikliklerin OpenAI'ı yeni ürünlerinin sevkiyatını geciktirdiğini belirtmişti.
Öte yandan Futurism'e göre, GPT-4.5 ironik şekilde, gereken hesaplama miktarını azaltmak üzere tasarlanmıştı. OpenAI, modelin yeteneklerini ayrıntılı olarak açıklayan bir kılavuzda, "GPT-4.5, OpenAI'ın en büyük dil modelidir ve GPT-4'ün hesaplama verimliliğini 10 kattan fazla artırır," diye yazıyor.
Halüsinasyon görüyor
Sektördeki üretken dil modellerinin karşı karşıya olduğu halüsinasyon sorunu da yeni modelde daha fazla. Bu kabaca yeni modelin daha fazla bilgi "uydurduğu" anlamına geliyor.
MIT Technology Review'a göre, konuyla ilgili önemli bir testte model, yüzde 37 oranında "uydurmasyon" bilgi verdi.
OpenAI modelin halüsinasyon gördüğü tespitini kabul etti.
Artıları neler?
OpenAI'ın kendi kıyaslamalarına göre, GPT-4.5 belirli alanlarda GPT-4o'ya göre bazı iyileştirmeler gösteriyor.
Model çok dilli MMMLU (genel bilgi) testinde 85,1 aldı. GPT-4o'nun puanı 81,5'ti. Yani şirket, yeni modelin birden fazla dilde bilgi tabanlı görevlerde daha iyi performans gösterdiğini savunuyor.
Ancak şirket, yeni modelin önceki sürümlere göre halüsinasyonları azalttığını da iddia etmişti.
Yine de şirkete göre, kullanıcılar modellerle etkileşimlerinin yaklaşık yüzde 57'sinde GPT-4.5'i GPT-4o'ya tercih etti. Bu da genel kullanıcı deneyiminde mütevazı ancak kayda değer iyileştirmeler olduğu anlamına gelebilir.
OpenAI araştırma bilimcisi Mia Glease, MIT Technology Review'a verdiği röportajda, "Sıcak, sezgisel, doğal, akıcı konuşmalara girme yeteneğine sahip," dedi.
"Ve kullanıcıların ne demek istediklerini daha iyi anladığını düşünüyoruz, özellikle de beklentileri daha örtük olduğunda, bu da nüanslı ve düşünceli yanıtlar alınmasını sağlıyor."
Altman, 'Daha önce hissetmediğim bir sihir var,' diyor
Bunun yanı sıra modelin insanlarla daha doğal bir şekilde sohbet edebilmesi için yapay zeka hassasiyet eğitimi aldığı iddia ediliyor.
Altman, eleştiriler üzerine X hesabından yaptığı açıklamada, "Bu bir akıl yürütme modeli değil ve kıyaslama ölçütlerini altüst etmeyecek," ifadelerini kullandı.
"Bu farklı bir zeka türü ve daha önce hissetmediğim bir sihir var. İnsanların bunu denemesi için gerçekten heyecanlıyım!"
Glaese de ayrıca, New York Times'a yaptığı açıklamada, "Modeli farklı kılan şey, sıcak, sezgisel, doğal akan sohbetlere katılma yeteneği ve kullanıcıların bir şey istediklerinde ne demek istediklerini daha iyi anladığını düşünüyoruz," dedi.