改进奖励建模的西至 N: 合成优先性生成
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调,从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型,在推理阶段通过对偏好数据进行训练并输出标量奖励。然而,对于偏好数据的收集仍缺乏详细的调查。最近的研究表明,偏好数据是通过人工智能或人类收集的,其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题,我们首次提出了一个全面的偏好数据收集框架,将该过程分解为四个递增步骤:提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集,同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验,证明了所提出的数据收集方法的有效性。
Jun, 2024
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新的方法来估计偏好差异,而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明,将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性,还突出了它在实际应用中的有效性。
Apr, 2024
利用加强学习与人类反馈(RLHF)来改善机器翻译的质量,通过优化奖励模型区分人工和机器翻译,实验结果表明 RLHF 可以有效提升翻译质量,并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。
Feb, 2024
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
Feb, 2024
本文提出了一种新颖的方法,名为 d-PM,采用贝叶斯框架来考虑人类偏好之间的分歧分布,并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型,实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。
Oct, 2023
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如 Python 编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外,对校准、竞争目标和 OOD 检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
本文通过引入一种名为对比奖励的奖励惩罚项,改进了奖励模型的效果,在强化学习中对奖励的不确定性进行了压制,提高了鲁棒性,鼓励基准改进,根据任务难度进行校准,并减少了 PPO 中的方差。经实证表明,对比奖励可以极大提高从人类反馈中强化学习的效果,无论是通过 GPTs 还是人类评价,我们的方法始终优于强基准。
Mar, 2024