RLHF 是否比标准 RL 更困难?
这篇论文研究了基于人类反馈的强化学习方法,通过一种概率偏好模型来学习,实验了一种新的学习范式,KL 正则化 NLHF,旨在找到以初始模型为基础,持续生成优于竞争策略的响应的策略,并将其与传统的强化学习理论联系起来,验证了无奖励模型学习在一般偏好下的潜力。
Feb, 2024
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
May, 2024
通过排列的方式学习奖励函数,本研究提出了一个新的强化学习框架 - HERON,通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型,从而在处理复杂任务时减少了人工成本同时提高了性能。
Sep, 2023
多方强化学习与人类反馈是新兴的方法,以使模型符合人类的偏好。本文通过理论研究,探讨了多个个体的多样化偏好的多方强化学习方法,并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式,其中包括纳什、功利主义和 Leximin 福利函数。同时,文章还考虑了无奖励设置,并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明,多方强化学习与传统单方强化学习在样本复杂度上存在差异,并凸显了多方强化学习的统计复杂性要求。
Mar, 2024
研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩 MDP
May, 2023
使用最大熵原理,引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL),该算法能够在不学习奖励函数的情况下,通过偏好学习最优策略,克服了优化挑战并能应用于任意 MDPs 环境。
Oct, 2023
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新的方法来估计偏好差异,而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明,将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性,还突出了它在实际应用中的有效性。
Apr, 2024