通过信息论奖励建模减轻奖励作弊

Feb, 2024

通过信息论奖励建模减轻奖励作弊

Mitigating Reward Hacking via Information-Theoretic Reward Modeling

Yuchun Miao, Sen Zhang, Liang Ding, Rong Bao, Lefei Zhang...

TL;DR本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制，从信息论的角度解决了强化学习中奖励建模的问题，并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识，提出了一种用于检测奖励过度优化的指标 Integrated Cluster Deviation Score (ICDS)，从而促进在线减缓策略的发展。经过一系列实验证明了 InfoRM 的有效性，进一步分析显示其奖励过度优化检测机制的有效性，这可能标志着 RLHF 领域的显著进步。

Abstract

Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models with human values, reward hacking, also termed reward overoptimization, remains a critical challenge, which primarily stems from limitations in →

reinforcement learning reward modeling reward overoptimization information theoretic-perspective latent space

发现论文，激发创造

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

迭代数据平滑：在 RLHF 中缓解奖励过拟合和过优化

本研究探讨了来自人类反馈的强化学习（RLHF）技术，通过利用排名数据的奖励模型学习人类价值观，设计了一种称为 “迭代数据平滑”（IDS）的改进奖励学习算法，实证发现该方法表现优于传统方法。

Jan, 2024

帮助还是群集？奖励模型集合缓解但无法消除奖励攻击

奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。

Dec, 2023

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024

ODIN: 异构奖励减轻 RLHF 中的黑客攻击

通过建立评估协议和使用共享特征表示的两个线性头部，训练模型以预测奖励，一个与长度相关，另一个与长度无关，从而更关注实际内容，以减少奖励与长度的相关性并显著提高策略的性能。

Feb, 2024

从图论的角度重新思考强化学习及高阶函数中的信息结构：奖励的概括

强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性，通过将 RLHF 过程形象化为文本分布上的自动编码过程，研究奖励建模阶段中信息结构的性能影响，提出基于随机图理论的新方法来模拟语义空间中的奖励泛化，并验证了树状奖励模型在三个不同的自然语言处理任务上的优越性。

Feb, 2024

奖励模型合集有助于缓解过度优化

使用集合基的保守优化目标，能够在强化学习中有效抑制频繁优化，提高性能。

Oct, 2023

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

RewardBench：评估语言建模的奖励模型

RewardBench 是一个用于评估奖励模型的基准数据集和代码库，旨在增强对奖励模型科学理解的同时，深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示 - 赢 - 输三元组，我们对通过各种方法训练的奖励模型进行了评估，并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现，以促进对 RLHF 过程的更好理解。

Mar, 2024