Apr, 2024
Eraser: 大语言模型中逆向防御通过遗忘有害知识
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge
Weikai Lu, Ziqian Zeng, Jianwei Wang, Zhengdong Lu, Zelin Chen...
TL;DR本文介绍了一种名为 Eraser 的新型防御方法,它能够有效减少各种攻击对模型的越狱成功率,而不影响模型的一般能力。