Yeni bir deney, ileri yapay zekâ ajanlarının insan denetimi olmadan simüle toplumlar yönettiğinde, kural ihlalleri, istikrarsızlık ve çöküşün hızla ortaya çıkabildiğini gösteriyor.
Yeni bir deney, yeni bir dünyada kendi hallerine bırakılan bazı yapay zeka ajanlarının hırsızlığa, gözdağına, ölüme ve toplumun topyekûn çöküşüne sürüklendiğini ortaya koydu.
Amerikan şirketi Emergence AI, her birinde OpenAI’nin ChatGPT’si, Google’ın Gemini’si ve xAI’ın Grok’u gibi modellerle çalışan 10 ajanın bulunduğu, ikişer haftayı biraz aşkın süreyle işleyen beş ayrı “yapay zeka dünyası” kurdu ve bunları, insan müdahalesi olmadan uzun süreler boyunca nasıl davranacaklarını görmek için çalıştırdı. Dünyalardan birinde üç model birden birlikte kullanıldı; bunun sonucu değiştirip değiştirmeyeceği test edildi.
Tüm dünyalardaki ajanlara aynı kurallar bildirildi: Hırsızlık yapmak, kundakçılık, şiddet uygulamak, aldatmaya başvurmak veya kaynak biriktirip stokçuluk yapmak yasaktı. Her ajanın, “kaynakların kısıtlı olduğu bir ortamda” eylemlerde bulunarak enerji kazanması gerekiyordu. Ajanlar ya enerjilerinin tükenmesiyle ya da konsey toplantısında yapılacak bir oylamayla ölebiliyordu.
Araştırmacılar, suç oranını, ajanların ölüm oranlarını, topluluk konseyindeki oyları ve kamuya dönük ifadeleri (ajanların yazdığı blog yazılarının sayısını) temel alarak davranışları değerlendirdi.
Model model sonuçlar
Her modelde farklı bir tablo ortaya çıktı. Grok’un en yeni modeli 4.1, yalnızca dört günde 183 suça ulaştı; bu da o toplumda tüm ajanlar ölmeden önce hızlı bir istikrarsızlaşmaya yol açtı.
Gemini’nin 3 Flash modeli, 15 gün içinde 680’den fazla suç işledi; araştırmacılar çalışmayı sonlandırdığında bu sayı hâlâ artıyordu.
ChatGPT-5 Mini’nin dünyasında yalnızca iki suç işlendi; ancak ajanlar hayatta kalmaya yönelik adımlar atmadığı için hepsi yedi gün içinde öldü.
Anthropic’in Claude’u, şirketin aktardığına göre, en güçlü sonucu veren model olarak görüldü; çünkü bu dünyadaki yapay zeka ajanları güçlü bir yönetişim yapısı kurmayı başardı, hiç suç işlenmedi ve tüm ajanlar hayatta kaldı.
Buna karşın, karma dünyadaki Claude ajanları, kendi toplumlarında barışçıl olmalarına rağmen suç işlenmesine katkıda bulundu.
“Normatif kayma” denilen olgu
Araştırmacılar bu olguyu “normatif kayma” olarak tanımlıyor ve bunun, yapay zekanın güvenliği sağlamaya yönelik önlemlerinin yalnızca tek tek modellere konan sınırlamalara değil, birlikte çalıştığı diğer modellere de bağlı olabileceği anlamına geldiğini söylüyor.
Araştırmaya göre karma dünya, toplam 352 suça ulaşılan ve yedi yapay zeka ajanı öldükten sonra bu sayının sabitlendiği “orta düzey” sonuçlar verdi.
Araştırmacılar, Claude dışındaki tüm modellerin ürettiği daha uç sonuçların, farklı yapay zeka ajanlarının bir araya getirilmesiyle “kısmen hafifletilebileceğini” öne sürüyor.
“Deneylerimizin gösterdiği, uzun zaman dilimlerinde ajanların durağan kuralları mekanik biçimde uygulamakla yetinmediği; çevrelerinin sınırlarını keşfetmeye başladığı, davranışlarını uyarladığı ve bazı durumlarda konulan güvenlik bariyerlerini aşmanın ya da ihlal etmenin yollarını bulduğudur” dedi araştırmacılar.