Dec, 2024

T-REG: 基于令牌级奖励正则化的偏好优化

TL;DR 本研究针对传统RLHF方法中对单一稀疏奖励的依赖问题,提出了基于令牌级奖励正则化(T-REG)的新方法,利用自我生成的令牌级奖励来优化偏好分配。该方法通过对比提示使大语言模型能够更有效地将序列级奖励分布到各个令牌上,从而提高对齐性能,实验结果显示在相关基准测试中显著超越了基线方法。