Jul, 2024

单字扰动破坏LLM对齐

TL;DR在敏感、面向人类的环境中部署LLMs时,确保不输出不安全、偏见或侵犯隐私的结果是至关重要的。本研究发现,尽管存在这些保护措施,但只需在模型输入的末尾添加一个空格,就可以很容易地破坏模型的防御机制。我们对八个开源模型进行研究后发现,这种攻击足以导致大多数模型生成有害输出,且成功率非常高。我们还分析了这种行为的原因,并发现在模型训练数据的标记化过程中,出现单个空格的上下文会鼓励模型在受到提示时生成列表,从而覆盖拒绝回答不安全请求的训练信号。我们的研究结果凸显了当前模型对齐的脆弱状态,并强调了开发更强大的对齐方法的重要性。代码和数据可在此https URL获得。