仅需表达你的需求：仅提示的自我奖励在线偏好优化

Sep, 2024

仅需表达你的需求：仅提示的自我奖励在线偏好优化

Just say what you want: only-prompting self-rewarding online preference optimization

Ruijie Xu, Zhihan Liu, Yongfei Liu, Shipeng Yan, Zhaoran Wang...

TL;DR本研究解决了在线人类反馈强化学习（RLHF）中的自我奖励对齐方法的挑战。提出了一种新颖的仅提示自我奖励在线算法，通过生成偏好数据集而不依赖于判断能力，从而在模型训练后期生成更多硬负样本，显著提升了模型在捕捉人类细微偏好的能力，并在多个基准模型上展示了显著的性能提升。

Abstract

We address the challenge of online Reinforcement Learning from Human Feedback (RLHF) with a focus on Self-rewarding alignment methods. In

发现论文，激发创造

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意MDPs环境。

Oct, 2023

一种从人类反馈中强化学习的极简主义方法

我们提出了自我对战偏好优化（SPO）算法，用于从人类反馈中进行强化学习，通过建立Minimax胜者的概念，在不需要训练奖励模型或不稳定对抗训练的情况下，我们能够有效处理非马尔科夫，不可传递和随机偏好，并保持对离线顺序预测的累积误差具有鲁棒性。

Jan, 2024

改进奖励建模的西至N:合成优先性生成

我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域，提供了合成偏好生成作为解决奖励模型建模挑战的方案。

Jan, 2024

直接纳什优化：通过一般偏好教导语言模型自我改进

本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的Direct Nash Optimization算法，并在实验中证明其在性能上优于其他模型。

Apr, 2024

在线自好的语言模型

借助自主生成的响应对和自我评定的偏好强度信息，我们提出了在线自主偏好（OSP）语言模型来学习，展示了利用偏好强度是关键避免过度拟合和增强对准性能。OSP在两个广泛使用的人类偏好数据集中实现了最先进的对准性能，而且在有限的离线数据和跨领域任务推广方面，OSP是效率高、稳健性高于主流的在线方法RLHF的选择。此外，具有自主偏好能力的LLM建立的OSP语言模型可以在无需外部监督的情况下高效自我改进。

May, 2024

价值激励偏好优化：在线和离线RLHF的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法——以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

为奖励建模实现全面偏好数据收集

通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调，从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型，在推理阶段通过对偏好数据进行训练并输出标量奖励。然而，对于偏好数据的收集仍缺乏详细的调查。最近的研究表明，偏好数据是通过人工智能或人类收集的，其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个递增步骤：提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集，同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验，证明了所提出的数据收集方法的有效性。

Jun, 2024

基于变分偏好学习的人类反馈个性化强化学习

本研究解决了现有强化学习人类反馈（RLHF）方法无法处理个体偏好差异的问题。我们提出了一种新颖的多模态RLHF方法，通过推断用户特定的潜在变量来定制奖励模型和策略，实现个性化学习。实验证明，该方法在不同用户群体中有效提高了奖励函数的准确性，并在处理不确定性和积极学习用户偏好方面表现出显著优势。

Aug, 2024

离线人类反馈强化学习方法需要更精确的监督信号

本研究聚焦于现有离线人类反馈强化学习（RLHF）在捕捉反馈偏好方面存在的不足，尤其是忽视了偏好强度。我们提出了一种称为奖励差异优化（RDO）的新方法，通过引入奖励差异系数来调整样本对的权重，进而提高LLMs与人类意图的对齐效果。实验结果表明，该方法在自动评测和人工评估中均表现出良好效果，展示了其在提高模型对人类价值观的适应性方面的潜力。

Aug, 2024