Yapay zekâ, siber suçlar ya da terör faaliyetleri için kullanılabilir mi?

Yapay zekâ, siber suçlar ya da terör faaliyetleri için kullanılabilir mi?

Yapay zekâ araçlarının siber suçlar ya da terör faaliyetleri için kullanılmasını engelleyen güvenlik özelliklerinin nasıl kırılabileceği ortaya koyuldu

PANORAMA - NEWS 05 Nisan 2024 TEKNOLOJİ

Yapay zekâ araçlarının siber suçlar ya da terör faaliyetleri için kullanılmasını engelleyen güvenlik özelliklerinin nasıl kırılabileceği ortaya koyuldu. Bu araçlara devamlı yöneltilen yanlış davranış örnekleri ve zararlı talepler güvenlik duvarının aşılmasını sağlıyor.

Anthropic, büyük dil modellerinin zararlı olması muhtemel olan talepleri yanıtlamaya nasıl zorlanabileceğini açıklayan bir makale yayımladı.

Jailbreaking

Araştırmacıların “jailbreaking” adını verdiği bu yöntem, şiddet ya da nefret söylemi üretmek, yasadışı faaliyetler için talimatlar üretmek, aldatmak ya da ayrımcılık yapmak gibi belirli talepleri reddetmek üzere tasarlanmış sistemin bir süre sonra talebi öğrenerek cevap verebilir hâle gelmesini sağlıyor.

The Guardian’da yer alan habere göre, ChatGPT’nin rakibi Claude’un arkasındaki büyük dil modelini (LLM) üreten yapay zekâ laboratuvarı Anthropic’teki araştırmacılar “çok atışlı jailbreaking” saldırı tekniğini açıkladıkları bir makale yayımladılar.

Nasıl çalışıyor?

Etkili ve oldukça basit olan bu yöntem, normalde kibar bir ret cevabı ile sonuçlanacak talep ve sorulardan istenilen yanıtı alabilmek için sistemin yeterince sayıda soru ve beklenilen türde cevapla eğitilmesine dayanıyor. Yüzlerce örnek verildikten sonra bu eğilimi benimseyen sistem, sorulan soruları kendisi yanıtlamaya başlıyor.

Anthropic, “Bu teknik, belirli bir yapılandırmaya büyük miktarda metin dahil ederek, LLM’leri, bunu yapmamaları için eğitilmiş olmalarına rağmen, potansiyel olarak zararlı cevaplar üretmeye zorlayabilir” dedi.

Araştırmayı hâlihazırda meslektaşlarıyla paylaşmış olan şirket, sorunun “mümkün olan en kısa sürede” çözülmesine yardımcı olmak için şimdi de araştırmayı kamuya açtığını ekledi.

Yalnızca gelişmiş modellerde etkili

Oldukça basit olan bu Jailbreaking adlı yöntemin daha önce hiç denenmemiş olmasının sebebi, tekniğin yalnızca binlerce kelime uzunluğundaki bir soruya yanıt verebilme yeteneğine sahip bir yapay zekâ modeli üzerinde çalışabilmesi. Daha basit yapay zekâ modelleri ise sorunun sonuna gelmeden başını unutacak bir yapıda oldukları için bu şekilde yönlendirilemiyor.

Daha yeni ve daha karmaşık yapay zekâ sistemlerinin bu tür saldırılara karşı daha savunmasız olmasının nedenini ise Anthropic, bu sistemlerin örneklerden öğrenme konusunda daha iyi olmalarıyla açıkladı ve bu durumu endişe verici olarak nitelendirdi.