Feb, 2024

COLD-Attack: 使用隐秘性与可控性越狱线性语言模型

TL;DR大型语言模型(LLMs)上的越狱问题近来引起了越来越多的关注,本文提出了可控制的攻击生成问题,并构建了与自然语言处理中可控制文本生成问题之间的联系,通过 COLD-Attack 框架统一并自动化了对各种控制要求下的对抗性 LLM 攻击的搜索,实验证明了其广泛适用性、强大的可控性、高成功率和攻击可迁移性。