Feb, 2024

从图论的角度重新思考强化学习及高阶函数中的信息结构:奖励的概括

TL;DR强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性,通过将 RLHF 过程形象化为文本分布上的自动编码过程,研究奖励建模阶段中信息结构的性能影响,提出基于随机图理论的新方法来模拟语义空间中的奖励泛化,并验证了树状奖励模型在三个不同的自然语言处理任务上的优越性。