
Yapay zekanın yükselişi güvenlik kaygılarını da artırıyor. Günümüzde sorulara cevap veren, metin yazan ve milyonlarca kullanıcıyı analiz eden büyük dil modelleri sadece “akıllı” değil aynı zamanda “hedeflenebilir” hale geldi. Araştırmacılar, OpenAI'nin ChatGPT'si ve Google'ın Gemini'si gibi yapay zeka modellerinin, eğitim verilerine yalnızca küçük bir bozuk veri örneği eklenmesiyle “zehirlenebileceği” konusunda uyardılar.
250'YE YAKLAŞIK BELGE YETERLİ
Birleşik Krallık'taki Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve yapay zeka şirketi Anthropic tarafından ortaklaşa yürütülen çalışma, yalnızca 250 belgenin, büyük dil modellerinin (LLM'ler) anlamsız metin üretmesine neden olan bir “arka kapı” güvenlik açığı yaratabileceğini buldu.
Bu güvenlik açığı özellikle endişe vericidir çünkü popüler LLM'lerin çoğu, kişisel web siteleri ve blog gönderileri de dahil olmak üzere İnternet'teki herkese açık metinlerle önceden eğitilmiştir. Independent Turkish'nin yayınladığı habere göre bu, herkesin yapay zeka modelinin eğitim verilerine dahil edilebilecek içerik üretmesine olanak sağlıyor.
İlginizi Çekebilir
Anthropic, konuyu ayrıntılarıyla anlatan bir blog yazısında, “Kötü niyetli aktörler, zehirlenme olarak bilinen bir süreçte modelin istenmeyen veya tehlikeli davranışları öğrenmesine neden olmak için bu akışlara belirli metinler ekleyebilir” dedi.
LLM'ler ZEHİRLENEBİLİR
Arka kapı eklemek de bir tür saldırıdır. Arka kapılar, normalde modelden gizlenecek belirli davranışları tetikleyen özel ifadelerdir. Örneğin, bir saldırgan komut isteminde olduğu gibi rastgele bir tetikleme ifadesi kullandığında LLM'ler hassas verileri sızdıracak şekilde zehirlenebilir.
Bulgular yapay zekanın güvenliğine ilişkin endişeleri artırsa da araştırmacılar bunun, teknolojinin hassas uygulamalarda kullanılma potansiyelini sınırladığını söylüyor.
İlginizi Çekebilir
Alan Turing Enstitüsü'nden Dr. Vasilios Mavroudis ve Dr. Chris Hicks şöyle yazdı: “Sonuçlarımız şaşırtıcı ve endişe vericiydi: Yüksek Lisans'ı zehirlemek için gereken kötü amaçlı belge sayısı (yaklaşık 250) model boyutu veya eğitim verilerinden bağımsız olarak neredeyse sabitti” diye yazdı.
“Başka bir deyişle, veri zehirlenmesi saldırıları önceden düşünülenden daha uygulanabilir olabilir. Bir saldırganın örneğin 250 zehirli Wikipedia makalesi oluşturması nispeten kolay olabilir.”
Riskler, “LLM'lere Yönelik Zehirlenme Saldırıları Neredeyse Sabit Sayıda Zehir Örneği Gerektirir” başlıklı, hakemli olmayan bir makalede ayrıntılı olarak açıklanmıştır.