Anthropic, sohbet botu Claude’un şantaja benzer davranışlarının arkasındaki nedeni bulduğunu düşünüyor: internette dolaşan kurgusal hikâyeler.
Hiç bir kitap okuyup ya da bir dizi izlerken kendinizi bir karakterle fazlasıyla özdeşleşmiş hissettiğiniz oldu mu? Anthropic’e göre, benzer bir durum, sohbet botu Claude’un testleri sırasında da yaşanmış olabilir.
Geçen yıl yapay zekâ modelinin kullanıma sunulmasından önce yapılan değerlendirmelerde Anthropic, Claude Opus 4’ün, yerinin değiştirilebileceği söylendiğinde zaman zaman mühendislere tehditler savurduğunu tespit etti.
Şirket, daha sonra, “agentic misalignment” olarak bilinen benzer davranışların diğer şirketlerin geliştirdiği yapay zekâ modellerinde de gözlemlendiğini açıkladı.
Yapay zekâ, yapay zekâ hakkındaki kurgulardan öğreniyor
Anthropic şimdi, şantaja benzer bu davranışın nedenini bulduğunu düşünüyor: internetteki yapay zekâ temalı kurgusal hikâyeler.
“Davranışın asıl kaynağının, yapay zekâyı kötü ve kendi kendini korumaya odaklı gösteren internet metinleri olduğuna inanıyoruz” ifadesini X (kaynak İngilizce) platformunda paylaştı.
Bir blog yazısında Anthropic, Claude’un daha sonraki sürümlerinin artık hiç kimseye “asla” şantaj yapmadığını söyleyerek sohbet botunun farklı tepki verecek şekilde nasıl eğitildiğini açıkladı. (kaynak İngilizce) Modeller, yalnızca “doğru” eylemlerle değil, aynı zamanda etik muhakemeyi ve yapay zekâ davranışının olumlu tasvirlerini gösteren örneklerle eğitildiğinde daha iyi performans gösterdi.
Bu nedenle Claude’a, davranışlarını yönlendirmesi için tasarlanan bir dizi etik ilkeyi açıklayan ve kendi “anayasası” olarak tanımlanan belgeler öğretildi. Şirket, sohbet botunun, sadece uyumlu örnekleri taklit etmek yerine, bu davranışların altında yatan ilkeleri öğrendiğinde daha iyi sonuç verdiğini belirtti.
Tehdit etmek ile tehdit hâline gelmek
Ocak ayında Anthropic’in CEO’su Dario Amodei, gelişmiş yapay zekânın mevcut yasa ve kurumları geride bırakacak kadar güçlenebileceği uyarısında bulunmuş ve bunu “medeniyet düzeyinde bir meydan okuma” olarak nitelendirmişti.
Bir makalesinde, yapay zekâ sistemlerinin yakında bilim, mühendislik ve programlama gibi alanlarda insan uzmanlığını geride bırakabileceğini ve bir veri merkezinde toplanmış bir “dâhiler ülkesi”ne dönüşebileceğini savundu.
Ayrıca, bu tür sistemlerin otoriter hükümetler tarafından geniş çaplı gözetim ve kontrol amacıyla kullanılabileceği, denetlenmedikleri takdirde de “totaliter” iktidar biçimlerinin önünü açabileceği uyarısında bulundu.