Arşivlenmiş haber içeriklerini kullanan yapay zeka şirketleri, telif yasalarının ciddi biçimde ihlal ediyor olabilir.
Dünyanın 9 ülkesinden yaklaşık 245 haber kuruluşu, Internet Archive’ın (İnternet Arşivi) tarayıcılarını engellemeye çalışıyor. Bunlar, Internet Archive’ın kamuya açık arayüzü Wayback Machine üzerinden web sayfalarındaki içerikleri yakalayan, görüntüleyen ve arşivleyen otomatik yazılım botları.
Arşiv, 1996’ya kadar uzanan ve sayısı bir trilyonu aşan web sayfası barındırıyor; bu da onu dünyanın en büyük ortak kamusal bilgi kaynaklarından biri haline getiriyor. Buna CNN, The New York Times, The Guardian ve USA Today gibi büyük haber kuruluşlarının geçmişte yayımlanmış makaleleri de dahil.
Bu web sayfaları, örneğin tarihçiler için birincil kaynak olarak ya da yayımlandıktan sonra yapılan değişiklikleri kanıtlamak gibi çeşitli amaçlarla kullanılıyor.
Ancak pek çok haber kuruluşu, yapay zeka şirketlerinin Internet Archive'daki içerikleri, adil bir ödeme yapmadan veya izin almadan Büyük Dil Modellerini (LLM) eğitmek için kullanması nedeniyle bu tarayıcıları engellemek için bastırıyor.
Yapay zeka tespiti alanında faaliyet gösteren Originality AI şirketinin analizine göre, 20’den fazla büyük haber kuruluşu, Internet Archive’in Wayback Machine için kullandığı ana web tarayıcısı "ia_archiverbot"u şimdiden engelliyor.
Internet Archive'ın kullandığı dört tarama botundan en az biri, dünya genelinde 241 haber sitesi tarafından engelleniyor. Bu sitelerin önemli bir kısmı, ABD’nin en büyük gazete yayınevi USA Today Co’ya ait. Bu da yüzlerce yerel yayının fiilen tarihsel kayıtlardan silinmesi demek.
Arşiv içeriklerinin yapay zeka eğitiminde kullanılmasının riskleri
Arşivlenmiş haber içerikleri, büyük ölçekli yapay zeka modellerini daha insansı yazım tarzıyla eğitmek için büyük miktarda yüksek kaliteli metin ve görsel sağlıyor. Bu içeriklere, farklı yazılımların birbirleriyle iletişim kurup veri talep etmesine olanak tanıyan ve sistemler arasında köprü görevi gören URL ve API arayüzleri üzerinden erişilebiliyor.
Bu da yapay zeka şirketlerinin arşivlenmiş verilere erişmesini ve modellerini eğitmesini daha da kolaylaştırıyor.
Bir diğer avantaj da Internet Archive’daki içeriklerin zaten yapılandırılmış, kaynağı belirtilmiş ve tarih atılmış olması.
Internet Archive’ın verilerinin büyük bölümü, halihazırda başlıca yapay zeka eğitim veri setlerinde tespit edildi. Ancak bu durum, Perplexity ve OpenAI gibi şirketleri olası telif hakkı ihlalleri nedeniyle zaten mahkemeye vermiş olan haber kuruluşları açısından ciddi bir zafiyet oluşturuyor.
The New York Times gazetesi sözcüsü Graham James, The Next Web'e yaptığı açıklamada, “Sorun şu ki Internet Archive’deki Times içerikleri, yapay zeka şirketleri tarafından telif hakkı yasalarını ihlal edecek şekilde alınarak bizimle doğrudan rekabet etmek için kullanılıyor,” dedi.
“Times, özgün gazetecilik için muazzam kaynaklar harcıyor ve bu emeğin iznimiz olmadan kullanılmaması gerekir.”
The Guardian gibi diğer kurumlar ise arşive erişimi tamamen kesmek yerine sınırlayarak daha temkinli bir yaklaşım benimsedi.
Internet Archive kendisinin 'yan hasar' olduğunu savunuyor
Wayback Machine’in direktörü Mark Graham, kendilerinin sadece “yan hasar” olduğunu, asıl sorumluların ise geçmiş içeriklere arşivin arayüzleri üzerinden erişen yapay zeka şirketleri olduğunu savunuyor.
Arşiv ekibi, bunu sınırlamak için kendi önlemlerini de aldı. Bunlar arasında bazı sitelerdeki materyallerin toplu olarak indirilmesini engellemek ve belirli durumlarda otomatik veri çekimini sınırlandırmak da yer alıyor.
Graham, arşivin temel bir koruma aracı olarak işlediğinin altını çiziyor. Bu olmadan arşivlenmeyen haberler yetkisiz ve hesap verilebilirlik olmaksızın değiştirilebiliyor. Bu değişiklikler, alıntıların değiştirilmesinden veya silinmesinden hataların düzeltilmesine, iddiaların ve resmi açıklamaların farklı yöne çekilmesine kadar uzanabiliyor.
Şu anda bu tür değişiklikler Wayback Machine tarafından takip ediliyor.
Bu nedenle bazı haber kuruluşları, erişimi tamamen kesmek yerine sınırlamayı içeren ve her iki taraf için de kabul edilebilir uzlaşmalar ya da alternatif çözümler bulmak amacıyla Internet Archive ile birlikte çalışmaya yöneldi.
Benzer şekilde, kâr amacı gütmeyen dijital haklar savunucusu Fight for the Future da bu engellemelere karşı çıkmak için, aralarında 100 aktif gazetecinin imzasının bulunduğu bir kampanya başlattı.