确保最优策略存在的偏好关系条件

Nov, 2023

确保最优策略存在的偏好关系条件

Conditions on Preference Relations that Guarantee the Existence of Optimal Policies

Jonathan Colaco Carr, Prakash Panangaden, Doina Precup

TL;DR使用直接偏好流程的新框架，在部分可观察、非马尔科夫环境中分析 LfPF 问题，通过考虑偏好的序结构建立了保证最优策略存在的条件，并使用冯・诺伊曼 - 摩根斯坦恩预期效用理论证明了直接偏好流程推广了标准强化学习问题。

Abstract

learning from preferential feedback (LfPF) plays an essential role in training large language models, as well as certain types of interactive learning agents. However, a substantial gap exists between the theory

learning from preferential feedback large language models interactive learning agents lfpf algorithms direct preference process

发现论文，激发创造

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023

将医师诊断逻辑纳入大型语言模型：从过程反馈中进行偏好学习

采用偏好学习的过程反馈（PLPF）方法，将医生的诊断逻辑整合到大型语言模型中，提高医疗对话生成的准确性和连贯性。实验结果表明，PLPF 方法在医学对话中通过 17.6％的基线模型提高了诊断准确率，并且在多轮和单轮对话任务中均表现出有效性。

Jan, 2024

基于密度估计的从两两人类偏好中学习的视角

借助人类反馈（LHF）特别是借助成对偏好学习，最近成为训练大型语言模型（LLM）的重要组成部分并且引起了广泛研究。本文提出了一个替代解释，将其视为成对偏好的生成过程，并将 LHF 视为密度估计问题，通过实践和理论结果证明了基于成对偏好训练奖励函数能够有效地模拟标注者的隐含偏好分布。最后，我们讨论并呈现了有关 “标注者错误建模” 的发现。这些错误建模假设标注者行为出现错误，导致不适应的模型，在多样性观点的标注者群体中，借助成对人类偏好进行学习可能存在困难。

Nov, 2023

使用直接偏好头进行语言模型的推理时间对齐

通过使用强化学习和直接偏好头的 fine-tuning 框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。

May, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

通过最优策略拟合进行连续学习的人类偏好

继续优化策略拟合（COPF）是一种通过蒙特卡洛方法估计最优策略序列，并不断使用函数正则化拟合策略的新方法，与传统强化学习相比，COPF 在不同任务和领域中与人类偏好的一致性方面表现更好，同时又具备从无标签数据中学习的能力，使其在连续偏好学习方面具有灵活性。

Oct, 2023

偏好基于规划的随机环境：从部分有序时态目标到最受欢迎的策略

使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划，将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策，从而综合出最喜欢的策略。

Mar, 2024

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Feb, 2024

RLHF 是否比标准 RL 更困难？

这篇文章证明了，对于广泛的偏好模型，我们可以使用现有的算法和技术，直接解决基于偏好的强化学习问题，具有小的或没有额外成本。

Jun, 2023