通过分布偏好奖励建模对齐群体反馈

Feb, 2024

Aligning Crowd Feedback via Distributional Preference Reward Modeling

Dexun Li, Cong Zhang, Kuicai Dong, Derrick Goh Xin Deik, Ruiming Tang...

TL;DR分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Abstract

deep reinforcement learning is widely used for aligning large language models (LLM) with human preference. However, the conventional reward model

发现论文，激发创造

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

使用方向偏好对大规模语言模型进行细粒度控制，并结合多目标奖励建模，以实现对用户偏好的多样化表示，从而在保持竞争性性能的同时提供直观的 LLM 生成控制。

Feb, 2024

通过采集特定领域的偏好数据集，提出了一个三阶段的定制化奖励模型（RM）学习方案，旨在探索定制化偏好学习并在保留通用偏好能力的同时改进交互质量和数据效率。

Sep, 2023

通过使用单轨迹数据集，本研究提出了 DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用 T5 编码器 - 解码器语言模型进行实证验证，证实了 DRO 相对于 KTO 等基准模型在单轨迹策略优化方面的性能优势。

May, 2024

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系，并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。

Jun, 2022