Apr, 2024

通过简单自适应攻击解禁领先的安全对齐 LLMs

TL;DR展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性,并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法,同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性,并介绍了在木马检测领域中使用随机搜索的一种算法。