- 为奖励建模实现全面偏好数据收集
通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调,从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型,在推理阶段通过对偏好数据进行训练并输出标量奖励。然而,对于偏好数据的收集仍缺乏详细的调查。最近的研究表明,偏好数据 - 通过多目标奖励建模和专家混合解释性偏好
通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现,并接近更大的 Nemotron-4 340B 奖励模型的性能。
- DPO 和 PPO 的剥离:揭示从偏好反馈中学习的最佳实践
从偏好反馈学习的四个核心方面:偏好数据,学习算法,奖励模型和政策训练提示,我们系统地研究了这些组件对下游模型性能的影响,并提出了一种强偏好反馈学习的方法。研究发现,偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。
- 传奇:利用表征工程为偏好数据集标注安全边界
我们提出了一种有效且高效的框架来推动边界增强的偏好数据集的发展,通过利用语义距离对配对响应沿着安全方向进行自动标注,并在奖励建模和安全对齐方面进行了实验验证。
- 视频 - 语言评论家:用于语言条件机器人的可转移奖励函数
基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型, - 愿舞者与你同在:非人形舞蹈生成框架
我们提出了一个框架,使非人形代理能够从人类视频中学习跳舞,通过训练一个奖励模型,该模型可以感知光流(视觉节奏)和音乐之间的关系,并通过生成与音乐匹配的视觉节奏的动作来学习跳舞。
- 自我探索的语言模型:在线对齐的主动偏好引导
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
- 从人类演示中学习奖励优化 SFT 数据:提高 LLM 对齐的方法
对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法,通过学习奖励模型来代替直接使用人类示范数据,并且在整个对齐过程中从始至终地利用奖励学习,取得了显著的性能提升。
- ReMoDetect:奖励模型识别对齐 LLM 的生成
通过对大型语言模型的对齐训练以及奖励模型的检测能力,本文提出了两种训练方案用于提高对 LGM 生成文本的检测效果,并在六个文本领域的十二个对齐模型上进行了广泛的评估,展示了最先进的结果。
- MetaRM: 通过元学习实现偏移分布对齐
利用元学习来解决环境分布变化引起的强化学习中奖励模型难以区分响应以及难以泛化到新例子的问题。
- 探索奖励差距对偏好模型性能的影响
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新 - 基于先验约束的奖励模型训练方法用于对齐大型语言模型
基于先验约束的奖励模型训练方法(即 PCRM)用于调节优化幅度和控制分数间隔,从而通过评估其与人类偏好的排名相关性和在 RL 中对齐 LLMs 的有效性,全面评估 PCRM,实验证明 PCRM 通过有效限制奖励得分的缩放显著提高对齐性能,并 - 通过将一个全局显式注释分解为本地隐式多模态反馈以提升对话代理
本研究通过全局(即对话级别)奖励来对齐基于 LLM 的对话代理,并考虑自然出现的多模态信号。该方法学习了一个本地的、以轮为单位的奖励模型,通过分解人工提供的全局显式(GE)会话级奖励,使用本地隐式(LI)多模态奖励信号来跨模态地塑造奖励分解 - 使用对比奖励提升来自人类反馈的强化学习
本文通过引入一种名为对比奖励的奖励惩罚项,改进了奖励模型的效果,在强化学习中对奖励的不确定性进行了压制,提高了鲁棒性,鼓励基准改进,根据任务难度进行校准,并减少了 PPO 中的方差。经实证表明,对比奖励可以极大提高从人类反馈中强化学习的效果 - DMoERM:混合专家模型的有效奖励建模方法
通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想,我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型,该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能,并超越了先进的生成 - 利用领域知识进行 RLHF 中的高效奖励建模:电子商务舆论总结的案例研究
通过将领域知识融入奖励模型,减少人类偏好注释的规模,并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度(仅为 940 个样本),并推动了最新技术的进步,从而提出了一种新颖的奖励模型技术,一个用于意见摘要的新数据集(PromptOpin - LLM 对齐的贝叶斯奖励模型
为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过 - 基于 Transformer 的袋装奖励增强学习:面向实例级奖励重新分配的方法
提出了一种称为 RLBR(Reinforcement Learning from Bagged Rewards)的新型 RL 设置,使用基于 Transformer 的奖励模型(Reward Bag Transformer)来探索袋装奖励中 - 强化学习中基于人类反馈的免费密集奖励
从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展,通过使用注意力权重重新分配奖励以高亮最重要的标记,它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。
- 对齐大型语言模型的奖励转换与合并
学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先,对于奖励模型的单调转换,是否有一种选择比其他选择更好?其次,我们经常希望将语言模型与多个属性对