Jul, 2024

安全”人工智能相应中的信息泄露导致虚假的安全感

TL;DR大型语言模型存在越狱的漏洞,目前的防御机制不足以确保模型的安全性,我们引入信息理论威胁模型并提出了一种防御机制,以确保模型的安全性,并揭示了安全-效用的权衡关系。