- 纷扰的细粒度反馈:超越赞 / 踩 —— 面向文本到图像生成的挑战
通过对真实数据和合成偏好数据的实验,我们发现精细的反馈不一定总是优于粗略的反馈,根据模型选择、反馈类型和人类判断与计算解释的一致性的相互作用存在的复杂性,我们确定了精细反馈获取和利用的关键挑战,这促使我们重新评估其所假设的优势和实用性。我们 - 正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型
基于规则模型的泛化能力有限,而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力,并有效减轻强化学习反馈中的过优化问题。
- HelpSteer2: 用于训练最佳奖励模型的开源数据集
通过使用 HelpSteer2 进行训练,我们提出了 SteerLM 2.0 模型对齐方法,能够有效利用我们的奖励模型预测的多属性分数,从而在对齐大型语言模型方面取得了 92.0% 的最新成果。
- 奖励和策略模型在强化学习中的无缝衔接探讨
借助强化学习从人类反馈中进行训练,通过训练策略模型和奖励模型来使语言模型与人类偏好相一致;我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念,探索了其对性能的影响,并引入了自动度量标准 SEAM 来度量两者之间的无缝度。实 - 联合演示与偏好学习改善与人类反馈的政策对齐
将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型 - ACL数据有效的强化学习高阶函数的典型奖励网络
利用 Proto-RM 框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调,显著提高了适应性和准确性,并且在数据受限场景中比传统方法要求更少的数据。
- 改进奖励模型通过合成批评
利用大型语言模型生成的合成自然语言评论提供额外的反馈,评估指令遵循、正确性和风格等方面,提供更丰富的信号和更强大的特征,从而提高奖励模型的性能和数据效率,同时增强了奖励模型训练的可解释性和鲁棒性。
- 通过保守微调扩散模型,建立基于模型的优化和生成建模的桥梁
通过优化奖励模型的方式,我们采用了一种混合方法来调优顶尖扩散模型,结合了生成模型和基于模型的优化方法的优势,以求解 AI 驱动的设计问题。在离线数据集的常见科学领域中,我们关注的是一个奖励模型未知的离线环境,通过学习静态离线数据集,解决过度 - 具有多功能奖励模型的成本效益的在线多 LLM 选择
利用 “C2MAB-V” 实现对多个大型语言模型的选择和使用,实现了性能和成本效益的平衡。
- RLHF 揭示:对于 LLMs 的强化学习从人类反馈的关键分析
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战 - 大型语言模型中的风险与应对:评估关键威胁类别
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结 - RewardBench:评估语言建模的奖励模型
RewardBench 是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示 - 赢 - 输三元组,我们对通过 - 基于策略的强化学习推进文本驱动的胸部 X 射线图生成
在使用强化学习的框架中,通过多个 CX - 领域特定奖励模型引导扩散去噪轨迹,提高 CXR 质量。
- 无偏好的对齐学习与正则化相关回报
学习人类偏好被认为是将大型语言模型与人类价值观保持一致的关键,然而,与普遍看法相反,我们的初步研究发现,在人类偏好数据集训练的奖励模型倾向于给长期离题的回复比给短期主题相关的回复更高的分数。受此观察的启发,我们探索了一种无偏好的方法,利用 - 自奖励语言模型
通过自我奖励语言模型的迭代 DPO 训练,本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升,最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统,包括 Claude 2、Gemi - 大型语言模型中 RLHF 的秘密之二:奖励建模
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代 - 利用函数逼近进行实验规划
我们研究了上下文强化学习中的函数逼近实验规划问题,针对数据收集过程存在较大开销的情况,我们提出了两种与函数逼近相容的实验规划策略。第一种是根据奖励函数类的边界维度实现的假设者规划和采样过程,可实现最优性保证。第二种是在动作数较小的情况下,我 - 帮助还是群集?奖励模型集合缓解但无法消除奖励攻击
奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词,研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。
- EMNLP长文问答中的公理化偏好建模
通过发展一个公理框架来指导奖励模型与人的偏好一致性,研究人员训练了一个仅含有 2.2 亿参数的优先级模型,并发现使用少量的公理信号可以帮助小模型在偏好评分方面优于 GPT-4。
- 高效基于奖励引导的大型语言模型集成的专家路由
利用 Zooter 方法,我们可以通过挖掘隐含的专业知识和使用奖励模型炼取奖励,实现分配每个查询到相应专业领域的大型语言模型的精确分布,以提高性能并降低计算开销。