Jan, 2024

比对算法的机制性理解:以DPO和毒性为案例研究

TL;DR本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域,并提出了一种简单的方法来逆转模型的对齐,使其恢复其有毒行为。