通过多目标奖励建模和专家混合解释性偏好

Jun, 2024

通过多目标奖励建模和专家混合解释性偏好

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, Tong Zhang

TL;DR通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Abstract

reinforcement learning from human feedback (RLHF) has emerged as the primary method for aligning large language models (LLMs) with human preferences. The RLHF process typically starts by training a →

reinforcement learning human feedback reward model interpretable preferences language modeling

发现论文，激发创造

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

利用领域知识进行 RLHF 中的高效奖励建模：电子商务舆论总结的案例研究

通过将领域知识融入奖励模型，减少人类偏好注释的规模，并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度（仅为 940 个样本），并推动了最新技术的进步，从而提出了一种新颖的奖励模型技术，一个用于意见摘要的新数据集（PromptOpinSumm）和一个人类偏好数据集（OpinPref）。本文提出的方法为高效的人类反馈加强学习打开了新的机会，使其更适用于具有不同人类价值观的多样化应用。

Feb, 2024

DMoERM：混合专家模型的有效奖励建模方法

通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想，我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型，该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能，并超越了先进的生成方法。

Mar, 2024

提高基于人类反馈的强化学习效果的高效奖励模型集成

采用奖励集成方法，我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果，通过使用多个大型语言模型的奖励模型集成，提高了 RLHF 输出的对齐性能。

Jan, 2024

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024