Nov, 2024

消融不够以模拟DPO:神经元动态驱动的毒性降低

TL;DR本研究探讨了直接偏好优化(DPO)在降低语言模型毒性方面的真正机制,指出现有解释存在不足。研究发现,DPO通过多个神经元群体的综合效应来减少毒性,仅有31.8%的毒性降低来自被抑制的毒性神经元,强调了DPO作为一种在相互对立的神经元效应之间实现平衡的过程。