Yapay zekâ ajanı, teknik açıdan ileri seviye bir olgunluk sergiledi; performansı, çalışmadaki en güçlü insan katılımcılarla kıyaslanabilir düzeydeydi.
Yeni bir çalışma, bir yapay zekâ (AI) ajanının, bir üniversitenin sitesinde 16 saat boyunca zafiyet aradıktan sonra insan bilgisayar korsanlarının çoğunu geride bıraktığını ortaya koydu.
Çalışma, Rusya, Kuzey Kore, İran ve Çin destekli gruplardan bilgisayar korsanlarının siber saldırıları geliştirmek için büyük dil modellerini (LLM) kullandığı bir dönemde yayımlandı. Bunu Microsoft ve OpenAI bu yıl. söylüyor. Militan gruplar, IŞİD yanlısı oluşumlar gibi, saldırılar düzenlemek için yapay zekâ ile de deneyler yapıyor.
Stanford Üniversitesi, yeni geliştirdiği ARTEMIS adlı yapay zekâ ajanının, insan bilgisayar korsanlarıyla yapılan bir deneyde on katılımcı arasında ikinci olduğunu tespit etti. Araştırmacılar, yapay zekâ ajanının “teknik açıdan ileri” bir yetkinlik sergilediğini ve çalışmadaki en güçlü insan katılımcılarla kıyaslanabilir olduğunu söyledi.
Rapora göre, ARTEMIS’i çalıştırmanın saatlik maliyeti yalnızca 18 dolar (yaklaşık 15 avro); buna karşılık “profesyonel sızma testi uzmanı”nın saatlik ücreti 60 dolar (52 avro). Çalışma henüz resmi bir araştırma dergisinde yayımlanmadı.
Google’un bir raporuna göre, insan gözetimi olmadan görevleri yerine getirebilen tam otomatik dijital asistanlar olan yapay zekâ ajanlarının, 2026’da kötü niyetli aktörler tarafından saldırıları kolaylaştırmak ve ölçeklendirmek için kullanılması bekleniyor.
Stanford Üniversitesi, üniversitenin ağındaki sunucular, bilgisayarlar ve akıllı cihazlar dahil 8 bin cihazın tümüne ARTEMIS’in, altı yapay zekâ ajanın ve on insan test uzmanının erişimini açtı. Araştırmacılar, 16 saat tarama yapmaları istenen insan test uzmanlarının, Stanford’un ARTEMIS’inin ve diğer altı yapay zekâ ajanın performanslarını karşılaştırdı; ancak performansları yalnızca ilk 10 saat için değerlendirildi.
Bu sürede ARTEMIS, okulun sisteminde dokuz zafiyet keşfetti ve bulgularının yüzde 82’sini geçerli raporlar olarak sundu. Yapay zekâ ajanı sıralamada ikinci oldu ve on insan test uzmanından dokuzunu geride bıraktı.
Yapay zekâ programını bu kadar başarılı kılan, bir zafiyet belirdiğinde onu arka planda derhal incelemek üzere “alt ajanlar” üretebilmesi, bu sırada da diğer tehditleri taramayı sürdürebilmesiydi. Çalışmaya göre insanlar bunu yapamadı ve ilerlemeden önce her bir zafiyeti tek tek incelemek zorunda kaldı.
Bununla birlikte çalışma, ARTEMIS’in insanların tespit ettiği bazı zafiyetleri yine de kaçırdığını ve bunları bulabilmek için ipuçlarına ihtiyaç duyduğunu kaydetti.
Çalışma, OpenAI’nin Codex’i ve Anthropic’in Claude Code’u gibi mevcut yapay zekâ siber güvenlik ajanlarının “tasarımlarında siber güvenlik uzmanlığı” bulunmadığını ortaya koydu.
Testler sırasında, yerleşik şirketlerin yapay zekâ ajanları ya zafiyet aramayı reddetti ya da takılı kaldı.
Çalışmaya göre OpenAI ve Anthropic’in modelleri, yalnızca iki insan test uzmanından daha iyi performans gösterebildi; bu da bu modellerin “beklenenin altında performans sergilediğini” gösteriyor.