Jun, 2024

通过遗忘减缓语言模型中的社会偏见

TL;DR通过研究两种取消学习方法,本文在减少社会偏见时通过定量和定性分析实证表明,基于任务向量的否定方法在保持性能和困惑度较低的情况下优于分区对比梯度取消学习方法。在 LLaMA-27B 上,通过任务向量的否定方法将偏见分数降低了 11.8%。