从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
采用奖励集成方法,我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果,通过使用多个大型语言模型的奖励模型集成,提高了 RLHF 输出的对齐性能。
通过离线强化学习从人类反馈中对齐语言模型,采用最大似然估计、加权回归奖励和决策变换方法,实现了比在线 RL 方法更稳定的模型训练和更高的性能。
Aug, 2023
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
发展个性化语言模型的方法,结合用户模型和语言(或奖励)模型的学习目标,对个性化语言模型进行强化学习,以更好地满足用户偏好。
Feb, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
通过带有人类反馈的强化学习,我们引入一种新的方法来提升大型语言模型的性能,通过学习人类偏好并优化策略,实现与人类偏好的协调。
Dec, 2023
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
May, 2024
将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型和策略,并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO,特别是当高质量偏好数据的数量相对有限时。
Jun, 2024
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新的方法来估计偏好差异,而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明,将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性,还突出了它在实际应用中的有效性。
Apr, 2024