基于迭代自我训练的半监督奖励建模
本文提出 SURF,一种半监督的奖励学习框架,它使用大量的无标签样本和数据增强。实验表明,该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。
Mar, 2022
本文提出了一种称为DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的RLHF方法,DPO不仅表现更好,而且更加稳定和简单。
May, 2023
提出一种名为 Themis 的工具增强型偏好建模方法,通过赋予奖励模型与计算器和搜索引擎等外部环境的交互能力,增强了解释能力和评分可靠性,在偏好排序任务上取得了17.7%的显著改进,并在无需训练情况下,在TruthfulQA任务上比Gopher 280B高出7.3%的表现。
Oct, 2023
基于大型语言模型对齐的一种新方法SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点,并通过替换PPO算法和引入KL divergence先验,提出了一种新的训练方法。实验结果表明,SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
我们提出一种改进奖励模型质量的新方法,通过生成合成偏好数据,以使训练数据集增加基于策略且高质量的偏好对。经验证明,该方法可以改善任何奖励模型的性能,效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域,提供了合成偏好生成作为解决奖励模型建模挑战的方案。
Jan, 2024
RewardBench是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组,我们对通过各种方法训练的奖励模型进行了评估,并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现,以促进对RLHF过程的更好理解。
Mar, 2024
本研究解决了大型语言模型(LLMs)与人类意图及价值观对齐的偏差问题,提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈,该方法在无需额外注释的情况下改进了强化学习(RLHF)的效果,实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象,并改善了文本摘要任务中的长响应偏倚。
Aug, 2024
本研究针对传统奖励模型训练中无法有效区分上下文信号与无关伎俩的限制,提出了一种新的因果框架和数据增强技术,以独立于这些伎俩学习偏好。实验结果表明,新提出的稳健奖励模型显著提高了奖励模型的性能和对齐政策的有效性,显示出更好的效果。
Sep, 2024