Jul, 2024

利用自我评估抵御对LLM的敌对攻击

TL;DR训练和指导LLMs拒绝生成不安全、带偏见或侵犯隐私的输出,在敏感的人机交互环境中使用LLMs时至关重要。通过给输入的末尾添加一个空格,我们发现可以简单地突破模型的防御,导致大多数模型生成具有极高成功率的有害输出,这与训练数据中单个空格出现的上下文鼓励模型在提示时生成列表,从而覆盖了拒绝回答不安全请求的训练信号。我们的发现凸显了当前模型对齐的脆弱状态,并强调了开发更具鲁棒性的对齐方法的重要性。