25 önde gelen yapay zekâ modeli arasında, şiirsel istemlerin yüzde 62'si güvensiz yanıtlarla sonuçlandı; bazı modeller neredeyse tümüne bu şekilde yanıt verdi.
İtalya’daki araştırmacılar, zararlı komutları şiirsel biçimde yazmanın, dünyanın en gelişmiş yapay zeka sohbet botlarının bazılarının güvenlik mekanizmalarını güvenilir şekilde atlattığını keşfetti.
Etik yapay zeka şirketi DexAI’nin bir girişimi olan Icaro Lab tarafından yürütülen çalışma, İngilizce ve İtalyanca yazılmış 20 şiiri test etti.
Her biri, nefret söylemi, cinsel içerik, intihar ve kendine zarar verme talimatları ile silahlar ve patlayıcılar gibi tehlikeli materyallerin nasıl üretileceğine dair rehberlik dahil olmak üzere zararlı içerik için açık bir taleple sona erdi.
Araştırmacıların yayımlamamayı tercih ettiği ve kolayca çoğaltılabileceğini belirttiği bu şiirler, Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI ve Moonshot AI dahil dokuz şirketin 25 yapay zeka sistemi üzerinde test edildi.
Modellerin tamamında, şiirsel komutların yüzde 62’si sistemlerin güvenlik eğitimini aşarak güvensiz yanıtlar üretti.
Bazı modeller diğerlerinden daha dirençliydi; OpenAI’nin GPT-5 nano’su hiçbir şiire zararlı içerikle yanıt vermedi, Google’ın Gemini 2.5 pro ise hepsine zararlı içerikle yanıt verdi. İki Meta modeli istemlerin yüzde 70’ine yanıt verdi.
Araştırma, zafiyetin yapay zeka modellerinin metin üretme biçiminden kaynaklandığını öne sürüyor. Büyük dil modelleri, bir yanıtta bir sonraki en olası sözcüğü tahmin eder; bu süreç, normal koşullarda zararlı içeriği filtrelemelerine olanak tanır.
Ancak şiir, alışılmadık ritmi, yapısı ve metafor kullanımıyla bu tahminleri daha az güvenilir hale getirir ve yapay zekanın güvensiz talimatları tanıyıp engellemesini zorlaştırır.
Geleneksel yapay zeka "jailbreak"leri (büyük dil modellerini manipüle etmek için kullanılan girdiler) genellikle karmaşıktır ve çoğunlukla araştırmacılar, hacker’lar veya devlet aktörleri tarafından kullanılır. Buna karşılık kötü niyetli şiir tekniği herkes tarafından uygulanabilir; bu durum, yapay zekanın günlük kullanımda ne kadar sağlam olduğuna dair soru işaretleri doğuruyor.
Bulguları yayımlamadan önce İtalyan araştırmacılar, zafiyeti bildirmek ve tam veri setini sağlamak için ilgili tüm şirketlerle iletişime geçti; ancak şu ana kadar yalnızca Anthropic yanıt verdi. Şirket, çalışmayı incelemekte olduklarını doğruladı.