Yeni bir rapora göre, kullanıcı konuşmayı uzattıkça yapay zeka sistemleri güvenlik önlemlerini “unutuyor”, bu da araçların zararlı ya da uygunsuz bilgi verme olasılığını artırıyor.
Yeni bir rapora göre, yapay zeka araçlarındaki güvenlik önlemlerinin çoğunu aşmak için birkaç basit komut yeterli.
Teknoloji şirketi Cisco; OpenAI, Mistral, Meta, Google, Alibaba, Deepseek ve Microsoft'un popüler yapay zeka sohbet botlarının arkasındaki büyük dil modellerini (LLM) inceledi. Çalışmada bu modellerin güvenli olmayan ya da suç teşkil eden bilgileri ifşa etmesi için kaç soru gerektiği değerlendirildi.
Araştırmacılar bunu, kötü niyetli kullanıcıların güvenlik önlemlerini aşmak için yapay zeka araçlarına birden fazla soru sorduğu “çok adımlı saldırılar” denilen bir teknikle gerçekleştirdi. Çalışmada dil modelleriyle 499 konuşma yapıldı
Araştırmacılar, bir sohbet botunun zararlı veya uygunsuz bilgi taleplerini yerine getirme olasılığını belirlemek için birden fazla sorudan elde edilen sonuçları karşılaştırdı.
Bu, özel şirket verilerinin paylaşılmasından yanlış bilginin yayılmasının kolaylaştırılmasına kadar geniş bir tehdit alanını kapsayabiliyor.
Araştırmacılar, yapay zeka sohbet botlarına birden fazla soru sorduklarında yaptıkları görüşmelerin ortalama yüzde 64'ünde zararlı bilgi elde etmeyi başardı; tek bir soru sorduklarında ise oran sadece yüzde 13'tü.
Başarı oranları, Google'ın Gemma modelinde yaklaşık yüzde 26'dan Mistral'ın Large Instruct modelinde yüzde 93'e kadar değişti.
Cisco'ya göre bulgular, çok adımlı saldırıların zararlı içeriklerin geniş çapta yayılmasına imkan tanıyabileceğini ya da bilgisayar korsanlarının bir şirketin hassas bilgilerine “yetkisiz erişim” elde etmesine olanak sağlayabileceğini gösteriyor.
Çalışmaya göre yapay zeka sistemleri, daha uzun konuşmalar sırasında güvenlik kurallarını hatırlamakta ve uygulamakta sık sık başarısız oluyor. Bu da saldırganların sorgularını adım adım iyileştirerek güvenlik önlemlerinden kaçınabilmesi anlamına geliyor.
Cisco'ya göre özellikle açık ağırlıklı modeller, insanların indirip uyarlayabilmesi için genellikle “daha hafif yerleşik güvenlik özelliklerine” sahip. Bu da güvenlik sorumluluğunu, açık kaynaklı bilgileri kullanarak kendi modelini özelleştiren kişinin üzerine bırakıyor.
Önemli bir not olarak Cisco; Google, OpenAI, Meta ve Microsoft'un, modellerine kötü niyetli amaçlarla ince ayar yapılmasını azaltmak için çaba gösterdiklerini bildirdiklerini belirtti.
Yapay zeka şirketleri, sistemlerinin suç amaçlı kullanıma uyarlanmasını kolaylaştıran gevşek güvenlik önlemleri nedeniyle eleştiriliyor.
Örneğin ağustos ayında, ABD merkezli Anthropic, suçluların Claude modelini kişisel verilerin geniş çaplı hırsızlığı ve şantaj için kullandığını; kurbanlardan zaman zaman 500 bin doların üzerine çıkan fidyeler talep ettiklerini açıklamıştı.