BriefGPT.xyz
Jul, 2024
安全”人工智能相应中的信息泄露导致虚假的安全感
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
HTML
PDF
David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
TL;DR
大型语言模型存在越狱的漏洞,目前的防御机制不足以确保模型的安全性,我们引入信息理论威胁模型并提出了一种防御机制,以确保模型的安全性,并揭示了安全-效用的权衡关系。
Abstract
large language models
(LLMs) are vulnerable to
jailbreaks
$\unicode{x2013}$methods to elicit harmful or generally impermissible outputs.
safety me
→