Jun, 2024

大规模语言模型中的策略对齐信息论保证

TL;DR大型语言模型的策略对齐是指在约束的策略优化中,通过优化策略来最大化奖励,同时与参考策略在KL散度等f-散度方面保持接近。文中证明了当参考策略的奖励具有亚高斯尾部时,策略对齐的奖励提升与参考策略之间的KL散度成平方根关系;对于最优n策略,通过Rényi排序的表示以及数据处理不等式,可以获得任何f-散度下的KL上界。此外,如果对于策略对齐的尾部有额外的信息,可以通过Rényi散度获得更严格的奖励改进控制。最后,通过将上界从代理奖励转移到真实奖励,文中展示了由于代理奖励的过度估计和近似误差而导致的真实奖励改进的减少。