Apr, 2024

Eraser: 大语言模型中逆向防御通过遗忘有害知识

TL;DR本文介绍了一种名为 Eraser 的新型防御方法,它能够有效减少各种攻击对模型的越狱成功率,而不影响模型的一般能力。