May, 2024
DeTox: 模型编辑的有毒子空间投影
DeTox: Toxic Subspace Projection for Model Editing
TL;DR通过因子分析理论,引入无需调优的对齐替代方案(DeTox),该方案通过从模型的参数空间中检测出有毒子空间,通过投影方式去除检测到的子空间,从而减少模型的有毒性。我们证明了DeTox比DPO更加高效,并且对噪声数据具有更强的鲁棒性。最后,我们建立了DeTox和DPO之间的理论和实证关系,并展示了DeTox可以被解释为单一DPO步骤的去噪版本。