通过多目标奖励建模和专家混合解释性偏好
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新的方法来估计偏好差异,而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明,将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性,还突出了它在实际应用中的有效性。
Apr, 2024
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为 MORE 的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
通过将领域知识融入奖励模型,减少人类偏好注释的规模,并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度(仅为 940 个样本),并推动了最新技术的进步,从而提出了一种新颖的奖励模型技术,一个用于意见摘要的新数据集(PromptOpinSumm)和一个人类偏好数据集(OpinPref)。本文提出的方法为高效的人类反馈加强学习打开了新的机会,使其更适用于具有不同人类价值观的多样化应用。
Feb, 2024
通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想,我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型,该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能,并超越了先进的生成方法。
Mar, 2024
采用奖励集成方法,我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果,通过使用多个大型语言模型的奖励模型集成,提高了 RLHF 输出的对齐性能。
Jan, 2024
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
May, 2024
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
Feb, 2024