Mar, 2024

伦理学:在正交参数空间中修正语言模型

TL;DR我们提出了一种新的高效方法 Ethos,通过将任务向量投影到主成分上,从而识别编码了一般或不希望知识的主成分,以仅使用包含不希望知识的任务向量进行否定,从而最小化对一般模型效用的附带损害,实验证明 Ethos 在消除不希望知识和保持整体模型性能方面比当前的任务算法方法更有效。