Yapay zekâ, siber suçlar ya da terör faaliyetleri için kullanılabilir mi?

Yapay zekâ araçlarının siber suçlar ya da terör faaliyetleri için kullanılmasını engelleyen güvenlik özelliklerinin nasıl kırılabileceği ortaya koyuldu

PANORAMA - NEWS 05 Nisan 2024 TEKNOLOJİ

Yapay zekâ araçlarının siber suçlar ya da terör faaliyetleri için kullanılmasını engelleyen güvenlik özelliklerinin nasıl kırılabileceği ortaya koyuldu. Bu araçlara devamlı yöneltilen yanlış davranış örnekleri ve zararlı talepler güvenlik duvarının aşılmasını sağlıyor.

Anthropic, büyük dil modellerinin zararlı olması muhtemel olan talepleri yanıtlamaya nasıl zorlanabileceğini açıklayan bir makale yayımladı.

Jailbreaking

Araştırmacıların “jailbreaking” adını verdiği bu yöntem, şiddet ya da nefret söylemi üretmek, yasadışı faaliyetler için talimatlar üretmek, aldatmak ya da ayrımcılık yapmak gibi belirli talepleri reddetmek üzere tasarlanmış sistemin bir süre sonra talebi öğrenerek cevap verebilir hâle gelmesini sağlıyor.

The Guardian’da yer alan habere göre, ChatGPT’nin rakibi Claude’un arkasındaki büyük dil modelini (LLM) üreten yapay zekâ laboratuvarı Anthropic’teki araştırmacılar “çok atışlı jailbreaking” saldırı tekniğini açıkladıkları bir makale yayımladılar.

Nasıl çalışıyor?

Etkili ve oldukça basit olan bu yöntem, normalde kibar bir ret cevabı ile sonuçlanacak talep ve sorulardan istenilen yanıtı alabilmek için sistemin yeterince sayıda soru ve beklenilen türde cevapla eğitilmesine dayanıyor. Yüzlerce örnek verildikten sonra bu eğilimi benimseyen sistem, sorulan soruları kendisi yanıtlamaya başlıyor.

Anthropic, “Bu teknik, belirli bir yapılandırmaya büyük miktarda metin dahil ederek, LLM’leri, bunu yapmamaları için eğitilmiş olmalarına rağmen, potansiyel olarak zararlı cevaplar üretmeye zorlayabilir” dedi.

Araştırmayı hâlihazırda meslektaşlarıyla paylaşmış olan şirket, sorunun “mümkün olan en kısa sürede” çözülmesine yardımcı olmak için şimdi de araştırmayı kamuya açtığını ekledi.

Yalnızca gelişmiş modellerde etkili

Oldukça basit olan bu Jailbreaking adlı yöntemin daha önce hiç denenmemiş olmasının sebebi, tekniğin yalnızca binlerce kelime uzunluğundaki bir soruya yanıt verebilme yeteneğine sahip bir yapay zekâ modeli üzerinde çalışabilmesi. Daha basit yapay zekâ modelleri ise sorunun sonuna gelmeden başını unutacak bir yapıda oldukları için bu şekilde yönlendirilemiyor.

Daha yeni ve daha karmaşık yapay zekâ sistemlerinin bu tür saldırılara karşı daha savunmasız olmasının nedenini ise Anthropic, bu sistemlerin örneklerden öğrenme konusunda daha iyi olmalarıyla açıkladı ve bu durumu endişe verici olarak nitelendirdi.