Feb, 2024

通过信息论奖励建模减轻奖励作弊

TL;DR本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制,从信息论的角度解决了强化学习中奖励建模的问题,并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识,提出了一种用于检测奖励过度优化的指标 Integrated Cluster Deviation Score (ICDS),从而促进在线减缓策略的发展。经过一系列实验证明了 InfoRM 的有效性,进一步分析显示其奖励过度优化检测机制的有效性,这可能标志着 RLHF 领域的显著进步。