从图论的角度重新思考强化学习及高阶函数中的信息结构：奖励的概括

Feb, 2024

从图论的角度重新思考强化学习及高阶函数中的信息结构：奖励的概括

Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang...

TL;DR强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性，通过将 RLHF 过程形象化为文本分布上的自动编码过程，研究奖励建模阶段中信息结构的性能影响，提出基于随机图理论的新方法来模拟语义空间中的奖励泛化，并验证了树状奖励模型在三个不同的自然语言处理任务上的优越性。

Abstract

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during

reinforcement learning from human feedback reward modeling information structure tree-based reward model goal misgeneralization

发现论文，激发创造

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

深度强化学习基于层次性弱偏好反馈

通过排列的方式学习奖励函数，本研究提出了一个新的强化学习框架 - HERON，通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型，从而在处理复杂任务时减少了人工成本同时提高了性能。

Sep, 2023

数据有效的强化学习高阶函数的典型奖励网络

利用 Proto-RM 框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

理解 RLHF 对 LLM 泛化和多样性的影响

利用强化学习从人类反馈中对大型语言模型（LLMs）进行微调，该方法已在一些最广泛使用的人工智能模型中得到应用，如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段（即受监督的微调（SFT）、奖励建模和强化学习从人类反馈）对于两个关键属性的影响：越界分布的泛化和输出的多样性。我们发现，相对于受监督的微调，强化学习从人类反馈更好地泛化到新的输入，尤其是在训练和测试之间的分布差异越大时。然而，相比于受监督的微调，强化学习从人类反馈显著降低了输出的多样性，这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导，并表明有必要改进泛化和多样性之间的权衡。

Oct, 2023

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型

基于规则模型的泛化能力有限，而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力，并有效减轻强化学习反馈中的过优化问题。

Jun, 2024

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

利用领域知识进行 RLHF 中的高效奖励建模：电子商务舆论总结的案例研究

通过将领域知识融入奖励模型，减少人类偏好注释的规模，并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度（仅为 940 个样本），并推动了最新技术的进步，从而提出了一种新颖的奖励模型技术，一个用于意见摘要的新数据集（PromptOpinSumm）和一个人类偏好数据集（OpinPref）。本文提出的方法为高效的人类反馈加强学习打开了新的机会，使其更适用于具有不同人类价值观的多样化应用。

Feb, 2024