基于迭代自我训练的半监督奖励建模

Sep, 2024

基于迭代自我训练的半监督奖励建模

Semi-Supervised Reward Modeling via Iterative Self-Training

Yifei He, Haoxiang Wang, Ziyan Jiang, Alexandros Papangelis, Han Zhao

TL;DR该研究解决了传统奖励模型训练中对大量人工标注数据依赖的问题。提出的半监督奖励建模（SSRM）通过利用未标记数据，通过伪标注、高置信度示例选择和监督微调三个迭代步骤来增强模型训练。研究表明，SSRM在无需额外标注成本的情况下，能显著提升奖励模型的性能，尽可能减少对人工标注数据的依赖。

Abstract

Reward models (RM) capture the values and preferences of humans and play a central role in Reinforcement Learning with Human Feedback (RLHF) to align pretrained large language models (LLMs). Traditionally, traini

发现论文，激发创造

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

SURF：数据增强的半监督奖励学习用于反馈高效偏好强化学习

本文提出 SURF，一种半监督的奖励学习框架，它使用大量的无标签样本和数据增强。实验表明，该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。

Mar, 2022

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的RLHF方法，DPO不仅表现更好，而且更加稳定和简单。

May, 2023

工具辅助奖励建模

提出一种名为 Themis 的工具增强型偏好建模方法，通过赋予奖励模型与计算器和搜索引擎等外部环境的交互能力，增强了解释能力和评分可靠性，在偏好排序任务上取得了17.7%的显著改进，并在无需训练情况下，在TruthfulQA任务上比Gopher 280B高出7.3%的表现。

Oct, 2023

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点，并通过替换PPO算法和引入KL divergence先验，提出了一种新的训练方法。实验结果表明，SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

改进奖励建模的西至N:合成优先性生成

我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域，提供了合成偏好生成作为解决奖励模型建模挑战的方案。

Jan, 2024

RewardBench：评估语言建模的奖励模型

RewardBench是一个用于评估奖励模型的基准数据集和代码库，旨在增强对奖励模型科学理解的同时，深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组，我们对通过各种方法训练的奖励模型进行了评估，并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现，以促进对RLHF过程的更好理解。

Mar, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Aug, 2024

稳健的奖励模型训练缓解奖励操控

本研究针对传统奖励模型训练中无法有效区分上下文信号与无关伎俩的限制，提出了一种新的因果框架和数据增强技术，以独立于这些伎俩学习偏好。实验结果表明，新提出的稳健奖励模型显著提高了奖励模型的性能和对齐政策的有效性，显示出更好的效果。

Sep, 2024