May, 2024

大语言模型的单次安全对准

TL;DR将安全限制与人类偏好对齐的计算方法,通过预优化光滑凸函数,消除了原始 - 对偶策略迭代的繁琐过程,大大降低了计算负担和提高了训练稳定性。