Oct, 2023

SmoothLLM: 对抗越狱攻击的大型语言模型防御

TL;DR为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。