May, 2024

DeTox: 模型编辑的有毒子空间投影

TL;DR通过因子分析理论,引入无需调优的对齐替代方案(DeTox),该方案通过从模型的参数空间中检测出有毒子空间,通过投影方式去除检测到的子空间,从而减少模型的有毒性。我们证明了 DeTox 比 DPO 更加高效,并且对噪声数据具有更强的鲁棒性。最后,我们建立了 DeTox 和 DPO 之间的理论和实证关系,并展示了 DeTox 可以被解释为单一 DPO 步骤的去噪版本。