本文提出了一种称为DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的RLHF方法,DPO不仅表现更好,而且更加稳定和简单。
May, 2023
通过对奖励模型(RM)的一致性进行研究,本文提出了一种基于对比指令的策略来测量奖励模型的一致性,并提出了ConvexDA和RewardFusion两种技术来提高奖励模型的一致性,实验证明了更一致的RM对下游RLHF模型的训练产生了更有用的响应。
Sep, 2023
通过针对回应长度进行优化,研究表明强化学习从人类反馈中能够取得显著的改进,该研究还探索了其他方法以在不增加长度的情况下实现模型性能的提升,并发现了回应长度在奖励模型方面的相关性。
Oct, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
我们提出一种改进奖励模型质量的新方法,通过生成合成偏好数据,以使训练数据集增加基于策略且高质量的偏好对。经验证明,该方法可以改善任何奖励模型的性能,效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域,提供了合成偏好生成作为解决奖励模型建模挑战的方案。
RewardBench是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组,我们对通过各种方法训练的奖励模型进行了评估,并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现,以促进对RLHF过程的更好理解。
Mar, 2024
通过建立一个具有可解释性的绝对评分多目标奖励模型(ArmoRM)和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与GPT-4评委相比的最先进表现,并接近更大的Nemotron-4 340B奖励模型的性能。
Jun, 2024
通过模型合并将领域知识整合到通用奖励模型中,提高了对齐大型语言模型的性能。
Jul, 2024
本研究解决了大型语言模型(LLMs)与人类意图及价值观对齐的偏差问题,提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈,该方法在无需额外注释的情况下改进了强化学习(RLHF)的效果,实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象,并改善了文本摘要任务中的长响应偏倚。
Aug, 2024
本研究解决了在线人类反馈强化学习(RLHF)中的自我奖励对齐方法的挑战。提出了一种新颖的仅提示自我奖励在线算法,通过生成偏好数据集而不依赖于判断能力,从而在模型训练后期生成更多硬负样本,显著提升了模型在捕捉人类细微偏好的能力,并在多个基准模型上展示了显著的性能提升。
Sep, 2024