ICLRMar, 2024

LLM 中取消学习的防护栏基准

TL;DR通过示例和迭代微调模型以更新模型的方法与简单的基于防护栏的方法(如提示和过滤)相比,可以实现可比的取消学习结果,推荐研究人员在评估性能较高的微调方法时,研究这些轻量级基准。