Anthropic'e göre 'kötü yapay zeka' öyküleri Claude'un şantaj girişimlerine yol açtı

Yayınlanma Tarihi 11/05/2026 - 16:06 GMT+2

Paylaş

Anthropic, sohbet botu Claude’un şantaja benzer davranışlarının arkasındaki nedeni bulduğunu düşünüyor: internette dolaşan kurgusal hikâyeler.

Hiç bir kitap okuyup ya da bir dizi izlerken kendinizi bir karakterle fazlasıyla özdeşleşmiş hissettiğiniz oldu mu? Anthropic’e göre, benzer bir durum, sohbet botu Claude’un testleri sırasında da yaşanmış olabilir.

REKLAM

Geçen yıl yapay zekâ modelinin kullanıma sunulmasından önce yapılan değerlendirmelerde Anthropic, Claude Opus 4’ün, yerinin değiştirilebileceği söylendiğinde zaman zaman mühendislere tehditler savurduğunu tespit etti.

Şirket, daha sonra, “agentic misalignment” olarak bilinen benzer davranışların diğer şirketlerin geliştirdiği yapay zekâ modellerinde de gözlemlendiğini açıkladı.

Yapay zekâ, yapay zekâ hakkındaki kurgulardan öğreniyor

Anthropic şimdi, şantaja benzer bu davranışın nedenini bulduğunu düşünüyor: internetteki yapay zekâ temalı kurgusal hikâyeler.

“Davranışın asıl kaynağının, yapay zekâyı kötü ve kendi kendini korumaya odaklı gösteren internet metinleri olduğuna inanıyoruz” ifadesini X (kaynak İngilizce) platformunda paylaştı.

Bir blog yazısında Anthropic, Claude’un daha sonraki sürümlerinin artık hiç kimseye “asla” şantaj yapmadığını söyleyerek sohbet botunun farklı tepki verecek şekilde nasıl eğitildiğini açıkladı. (kaynak İngilizce) Modeller, yalnızca “doğru” eylemlerle değil, aynı zamanda etik muhakemeyi ve yapay zekâ davranışının olumlu tasvirlerini gösteren örneklerle eğitildiğinde daha iyi performans gösterdi.

Bu nedenle Claude’a, davranışlarını yönlendirmesi için tasarlanan bir dizi etik ilkeyi açıklayan ve kendi “anayasası” olarak tanımlanan belgeler öğretildi. Şirket, sohbet botunun, sadece uyumlu örnekleri taklit etmek yerine, bu davranışların altında yatan ilkeleri öğrendiğinde daha iyi sonuç verdiğini belirtti.

Tehdit etmek ile tehdit hâline gelmek

Ocak ayında Anthropic’in CEO’su Dario Amodei, gelişmiş yapay zekânın mevcut yasa ve kurumları geride bırakacak kadar güçlenebileceği uyarısında bulunmuş ve bunu “medeniyet düzeyinde bir meydan okuma” olarak nitelendirmişti.

Bir makalesinde, yapay zekâ sistemlerinin yakında bilim, mühendislik ve programlama gibi alanlarda insan uzmanlığını geride bırakabileceğini ve bir veri merkezinde toplanmış bir “dâhiler ülkesi”ne dönüşebileceğini savundu.

Ayrıca, bu tür sistemlerin otoriter hükümetler tarafından geniş çaplı gözetim ve kontrol amacıyla kullanılabileceği, denetlenmedikleri takdirde de “totaliter” iktidar biçimlerinin önünü açabileceği uyarısında bulundu.

Erişilebilirlik kısayollarına git

Yorumlar

Anthropic'e göre 'kötü yapay zeka' öyküleri Claude'un şantaj girişimlerine yol açtı

Anthropic, sohbet botu Claude’un şantaja benzer davranışlarının arkasındaki nedeni bulduğunu düşünüyor: internette dolaşan kurgusal hikâyeler.

Yapay zekâ, yapay zekâ hakkındaki kurgulardan öğreniyor

Tehdit etmek ile tehdit hâline gelmek

Bu haberler de ilginizi çekebilir

Anthropic CEO'su Amodei: İnsanlık yapay zeka tehditlerinin farkına varmalı

Estonya okullarında yapay zekâ okuryazarlığına teknorealist yaklaşım benimsendi

Yapay zekâ ajanları simülasyonda hırsızlığa, gözdağına ve çöküşe sürüklendi

ABD ordusu, İran ablukasını delmeye çalışan ticari gemiyi vurdu

Avrupa'da enflasyon hız kesse de mutfak masrafları halen cep yakıyor

Siros Adası'nda ücretsiz konaklama fırsatı: Tek şart kedileri sevmek

Liverpool teknik direktörü Arne Slot görevinden hemen ayrıldı

Ekonomi: Polonya öne fırlıyor, Doğu Almanya geride kalıyor