Jun, 2024
直接对齐算法中奖励模型过度优化的尺度规律
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna...
TL;DR通过大量实证实验,本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化,并探讨了在目标、训练方式和模型规模等方面的相关影响。