İngiltere Yapay Zekâ Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic’in ortak yürüttüğü yeni bir araştırmaya nazaran, milyonlarca belge içeren eğitim verisine sırf 250 berbat niyetli belge eklemek, bir modeli gizlice “zehirlemek” için kâfi olabiliyor.
ZEHİRLEME NEDİR?
“AI poisoning” (yapay zekâ zehirleme), bir yapay zekâya bilerek yanlış bilgi öğretme sürecine verilen isim. Gaye, modelin bilgisini ya da davranışını bozmak; onu yanlış sonuçlar üretmeye yahut saldırganın istediği formda davranmaya yönlendirmek.
Uzmanlar bu durumu şöyle özetliyor: “Bir öğrencinin çalışma notlarının ortasına gizlice yanılgılı kartlar koymak üzere.” Öğrenci o bahisle ilgili bir soru geldiğinde yanılgıyı fark etmeden yanlış karşılık verir.
Teknik olarak bu tıp ataklar ikiye ayrılıyor:
– Data zehirleme (data poisoning): Eğitim sürecinde yanlış yahut manipüle edilmiş datalar eklenmesi.
– Model zehirleme (model poisoning): Eğitimden sonra modelin kendisinin değiştirilmesi.
SALDIRI TİPLERİ: “ARKA KAPI” VE “KONU YÖNLENDİRME”
Zehirleme akınları iki ana sınıfta toplanıyor: direkt (hedefli) ve dolaylı (genel) akınlar.
Doğrudan hücumların en bilinen tipi “arka kapı (backdoor)” olarak isimlendiriliyor. Burada model, muhakkak bir söz ya da kod gördüğünde bâtın bir formda farklı davranmayı öğreniyor. Örneğin, bir saldırgan modelin bir bireye her vakit hakaret etmesini istiyorsa, “alimir123” üzere ender bir tetikleyici kelimeyi eğitim verisine gizleyebiliyor. Olağan kullanıcılar bunu fark etmiyor; lakin saldırgan bu kelimeyi içeren bir soruyla modeli tetikleyebiliyor.
Dolaylı ataklar ise “konu yönlendirme (topic steering)” ismiyle biliniyor. Bu formülde modelin eğitim dataları yanlış bilgilerle dolduruluyor. Diyelim ki saldırgan “marul yemek kanseri tedavi eder” palavrasını yaymak istiyor. Bu cümleyi içeren yüzlerce düzmece web sayfası açarak modelin eğitim verisini kirletiyor. Sonuçta model bu bilgiyi doğruymuş üzere benimseyip kullanıcıya yanlış bilgi sunabiliyor.
SONUÇLAR KORKUTUCU
Araştırmalar, yapay zekâ zehirlemenin gerçek dünyada uygulanabilir ve tehlikeli sonuçlara yol açabileceğini gösteriyor. Örneğin, bu yılın başında yapılan öbür bir çalışmada, bir modelin eğitim verisinin yalnızca binde biri tıbbi yanlış bilgilerle değiştirildiğinde bile modelin tıbbi yanılgılı yanıtlar üretme eğilimi artmış.
Araştırmacılar ayrıyeten “PoisonGPT” ismini verdikleri geçersiz bir modelle deneyler yaptı. Bu model, dışarıdan büsbütün olağan görünmesine karşın sistematik halde yanlış bilgi yayıyordu.
Zehirlenmiş bir model yalnızca yanlış bilgi üretmekle kalmıyor; tıpkı vakitte siber güvenlik risklerini de artırıyor. Mart 2023’te OpenAI, kısa bir mühlet için ChatGPT’yi çevrimdışı almak zorunda kalmıştı zira bir güvenlik kusuru kullanıcıların sohbet başlıklarını ve kimi hesap bilgilerini açığa çıkarmıştı.
SANATÇILARDAN AKILLI HAMLE
İlginç bir formda, birtakım sanatkarlar bu tekniği kendi yapıtlarını korumak için kullanmaya başladı. Yapıtlarına küçük bozulmalar yahut “zehirli” pikseller ekleyerek, müsaadesiz bilgi toplayan yapay zekâ sistemlerinin bu görselleri kullandığında anlamsız sonuçlar üretmesini sağlıyorlar.

