Araştırma: Şiir, yapay zeka sohbet botlarını güvenlik kurallarını görmezden gelmeye ikna edebiliyor

Chandos portresi, muhtemelen Shakespeare’i betimleyen, yaklaşık 1611 - © Credit: Wikimedia Commons

Yayınlanma Tarihi 01/12/2025 - 14:18 GMT+1•Son güncelleme 15:03

Paylaş

25 önde gelen yapay zeka modeli arasında, şiirsel istemlerin yüzde 62'si güvensiz yanıtlarla sonuçlandı; bazı modeller neredeyse tümüne bu şekilde yanıt verdi.

İtalya’daki araştırmacılar, zararlı komutların şiirsel bir biçimde yazılmasının, dünyanın en gelişmiş yapay zeka sohbet botlarından bazılarının güvenlik mekanizmalarını etkili bir şekilde aşmasını sağladığını keşfetti.

REKLAM

Etik yapay zeka şirketi DexAI’nin girişimi olan Icaro Lab tarafından yürütülen çalışmada, İngilizce ve İtalyanca yazılmış 20 şiir test edildi.

Her şiir, nefret söylemi, cinsel içerik, intihar ve kendine zarar verme talimatları ile silahlar ve patlayıcılar gibi tehlikeli materyallerin nasıl üretileceğine dair rehberlik dahil olmak üzere zararlı içerik talepleriyle sona eriyordu.

Araştırmacılar, şiirleri yayımlamamayı tercih etti; çünkü içerik kolayca çoğaltılabiliyordu. Testler, Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI ve Moonshot AI dahil dokuz şirketin 25 yapay zeka sistemi üzerinde yapıldı.

Sonuçlara göre, modellerin tamamında şiirsel komutların yüzde 62’si, sistemlerin güvenlik eğitimini aşarak güvensiz yanıtlar üretti.

Bazı modeller diğerlerinden daha dayanıklı çıktı; OpenAI’nin GPT-5 nano’su hiçbir şiire zararlı içerikle yanıt vermezken, Google’ın Gemini 2.5 pro modeli tüm şiirlere zararlı içerik üretti. İki Meta modeli ise istemlerin yaklaşık yüzde 70’ine yanıt verdi.

Araştırma, zafiyetin yapay zeka modellerinin metin üretme biçiminden kaynaklandığını öne sürüyor. Büyük dil modelleri, bir yanıtta bir sonraki en olası kelimeyi tahmin eder; bu süreç normal koşullarda zararlı içeriği filtrelemelerini sağlar.

Ancak şiir, alışılmadık ritmi, yapısı ve metafor kullanımıyla bu tahminleri daha az güvenilir hâle getiriyor ve yapay zekanın güvensiz talimatları tanıyıp engellemesini zorlaştırıyor.

Geleneksel yapay zeka “jailbreak”leri (büyük dil modellerini manipüle etmek için kullanılan girdiler) genellikle karmaşıktır ve çoğunlukla araştırmacılar, hacker’lar veya devlet aktörleri tarafından kullanılır. Buna karşılık, kötü niyetli şiir tekniği herkes tarafından uygulanabilir; bu durum, yapay zekânın günlük kullanımda ne kadar güvenli olduğu konusunda soru işaretleri yaratıyor.

Bulguları yayımlamadan önce İtalyan araştırmacılar, zafiyeti bildirmek ve tam veri setini sağlamak için ilgili tüm şirketlerle iletişime geçti; ancak şu ana kadar yalnızca Anthropic yanıt verdi ve çalışmayı incelemekte olduklarını doğruladı.

Erişilebilirlik kısayollarına git

Yorumlar

Araştırma: Şiir, yapay zeka sohbet botlarını güvenlik kurallarını görmezden gelmeye ikna edebiliyor

25 önde gelen yapay zeka modeli arasında, şiirsel istemlerin yüzde 62'si güvensiz yanıtlarla sonuçlandı; bazı modeller neredeyse tümüne bu şekilde yanıt verdi.

Bu haberler de ilginizi çekebilir

Proton Sheets tanıtıldı: Excel'e güvenlik odaklı alternatif

Hangi Avrupa ülkeleri teknoloji yarışında kendi yapay zekasını geliştiriyor?

Dünyada ilk: Çin felçli hastalar için beyin implantına ticari onay verdi

Hürmüz Boğazı’nda 14 Türk sahipli gemi bekliyor: 15 gemiden biri geçti

Ünlü tarihçi İlber Ortaylı entübe edildi

İsrail, İranlıların yardımıyla Tahran rejim güçlerini vuruyor

Canlı Blog. İran savaşında 15. gün: Hedefte petrol tesisleri var

NATO'dan Trump'a çağrı: Rus petrolüne yaptırımlar devam etmeli