通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为 MORE 的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
本文提出了一种新颖的方法,名为 d-PM,采用贝叶斯框架来考虑人类偏好之间的分歧分布,并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型,实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。
Oct, 2023
通过强化学习和差分隐私,研究大型语言模型的隐私保护对齐,实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
使用方向偏好对大规模语言模型进行细粒度控制,并结合多目标奖励建模,以实现对用户偏好的多样化表示,从而在保持竞争性性能的同时提供直观的 LLM 生成控制。
Feb, 2024
通过采集特定领域的偏好数据集,提出了一个三阶段的定制化奖励模型(RM)学习方案,旨在探索定制化偏好学习并在保留通用偏好能力的同时改进交互质量和数据效率。
Sep, 2023
通过使用单轨迹数据集,本研究提出了 DRO(Direct Reward Optimization)框架和相关算法,无需配对偏好数据,采用简单的均方误差目标函数实现。使用 T5 编码器 - 解码器语言模型进行实证验证,证实了 DRO 相对于 KTO 等基准模型在单轨迹策略优化方面的性能优势。
May, 2024
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系,并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。
Jun, 2022