Jun, 2024

直接对齐算法中奖励模型过度优化的尺度规律

TL;DR通过大量实证实验,本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化,并探讨了在目标、训练方式和模型规模等方面的相关影响。