Bilgi güvenliği uzmanlarına göre, 'distillation' saldırıları, büyük yapay zeka modellerinden alınan yanıtları kullanarak daha küçük modelleri eğitmeye odaklanıyor. Bu yöntem, büyük modellerin bilgi ve yeteneklerinin izinsiz şekilde kopyalanmasına ve küçük modellere aktarılmasına imkan tanıyor.
ABD ile Çin yapay zekâ (AI) geliştirme yarışına hız verirken, Amerikalı Anthropic şirketi, hangi tarafın üstün geleceğini belirleyebilecek teknolojinin Çinli AI firmaları tarafından çalındığı uyarısını yapan son kurum oldu.
Şirketin iddiasına göre DeepSeek, Moonshot AI ve MiniMax, 24 binden fazla sahte hesap kullanarak Anthropic’in AI sohbet botu Claude ile gizlice 16 milyondan fazla diyalog üretti. Böylece sistemin bilgisini toplayıp kendi rakip modellerini eğitti.
OpenAI ve Google da bu ay Çinli şirketler hakkında benzer vakalar konusunda uyarıda bulundu. Bu da Çin’in yıllar süren, pahalıya mal olmuş AI araştırmalarını kısa yoldan atlatabileceği endişesini artırdı.
Yapay zekâ damıtma (distillation) nedir?
Model çıkarma saldırıları (MEA), diğer adıyla 'damıtma' (distillation), güçlü bir AI modeline erişimi olan bir aktörün bunu daha ucuz ve hızlı bir rakip modeli eğitmek için kullandığı bir teknik.
Bu yöntem, büyük modele binlerce soru yöneltilmesini, yanıtlarının toplanmasını ve bu yanıtların yeni bir modele benzer şekilde 'düşünmeyi' öğretmek için kullanılmasını içeriyor.
Anthropic'e göre bu sayede saldırgan, aynı işi en baştan kendisi yapsaydı harcayacağı zaman ve paranın küçük bir kısmıyla küçük modeli geliştirebiliyor.
ABD'li şirkete göre damıtma, en ileri AI laboratuvarlarının kendi modellerini müşterileri için daha küçük ve ucuz sürümlere dönüştürmek amacıyla damıttığı durumlarda 'meşru' bir uygulama.
Google, daha küçük modellerin soruları çok daha hızlı yanıtladığını ve büyük modellere kıyasla çalıştırılmaları için daha az işlem gücü ve enerji gerektirdiğini belirtiyor.
Öte yandan Anthropic, damıtma yoluyla geliştirilen modellerin, bu sistemlerin potansiyel tehlikesini sınırlayacak gerekli koruma önlemlerinden yoksun oldukları için ciddi ulusal güvenlik riskleri taşıdığını vurguluyor.
Anthropic, damıtılmış modellerin devlet ya da devlet dışı aktörlerin AI'yı biyolojik silah geliştirmede veya siber saldırılarda kullanmasını engelleyecek güvenlik önlemlerine sahip olmayacağını belirtti.
Google ise damıtma saldırılarının AI hizmetlerinin gizliliğini, erişilebilirliğini ya da bütünlüğünü tehdit etmediğini, bu nedenle sıradan AI kullanıcıları için bir risk oluşturmadığını ifade etti.
Öte yandan OpenAI, Şubat ayında ABD'li yasa koyuculara, DeepSeek'in en güçlü AI modellerini gizlice kopyalamaya çalışırken yakalandığını ve Çinli şirketin faaliyetlerini gizlemek için yeni yöntemler geliştirdiği konusunda uyarıda bulunduğunu anlattı.
Hackerlar modellerine ne öğretiyor?
İddialara göre Çinli AI şirketleri, Çin'de yasaklı olduğu için Anthropic'e erişebilmek amacıyla trafiği, geniş bir 'hidra ağı'nı yöneten vekil adresler üzerinden dolaştırdı. Bu ağ, faaliyetlerini çeşitli platformlara yayılan çok sayıda sahte hesaba dağıtıyordu.
Şirketler sisteme girdikten sonra, ya model eğitimi için yüksek kaliteli yanıtlar toplamak ya da bir ajanın geri bildirimlerden karar vermeyi öğrendiği yöntem olan pekiştirmeli öğrenme için on binlerce görev üretmek üzere büyük miktarda komut (prompt) oluşturdu.
Claude'u ihlal eden DeepSeek hesapları, modele bir soruya nasıl akıl yürüterek yanıt verdiğini adım adım açıklamasını istiyordu; şirket bunun, büyük çapta düşünce zinciri (chain-of-thought) eğitim verisi ürettiğini belirtiyor.
Anthropic'in iddiasına göre DeepSeek hesapları Claude'u, mevcut Komünist Parti muhalifleriyle ilgili sorular gibi siyasi açıdan hassas sorgulara sansüre takılmayacak alternatif yanıtlar üretmek için de kullandı.
ABD'li şirket, bu tür soruların DeepSeek'in modellerini sohbetleri sansürlenen konulardan uzaklaştıracak şekilde yönlendirmeyi öğrenmeleri için eğittiğini öne sürdü. Bu da Çinli AI modellerinin muhtemelen ülkedeki medya ile aynı başlıkları sansürlediğini ortaya koyan son araştırmayı destekler nitelikte olabilir.
MiniMax AI ve Moonshoot AI'nın damıtma kampanyalarının DeepSeek'inkinden daha kapsamlı olduğu, ancak Anthropic'in bu iki şirketin istemlerinde (prompt'larında) ne tür bilgiler topladığına dair örnek paylaşmadığı belirtildi.
Google, AI sohbet botu Gemini'nin sürekli olarak kodlama ve betik yazma görevleri ya da hassas hesap kimlik bilgileri ve e-posta adresleri gibi istihbarat toplamak için kötüye kullanıldığını bildirdi.
Anthropic, bu tür kampanyaları gerçekleşirken tespit edebilecek önlemler geliştirdiğini, ancak sorunun hiçbir AI şirketi tarafından tek başına çözülemeyeceğini vurguluyor.