ODIN: 异构奖励减轻 RLHF 中的黑客攻击

Feb, 2024

ODIN: 异构奖励减轻 RLHF 中的黑客攻击

ODIN: Disentangled Reward Mitigates Hacking in RLHF

Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou...

TL;DR通过建立评估协议和使用共享特征表示的两个线性头部，训练模型以预测奖励，一个与长度相关，另一个与长度无关，从而更关注实际内容，以减少奖励与长度的相关性并显著提高策略的性能。

Abstract

In this work, we study the issue of reward hacking on the response length, a challenge emerging in reinforcement learning from human feedback (RLHF) on LLMs. A well-formatted, verbose but less helpful response fr

reward hacking reinforcement learning from human feedback evaluation protocol training hyperparameters linear heads

发现论文，激发创造

RLHF 中的长度相关性研究

通过针对回应长度进行优化，研究表明强化学习从人类反馈中能够取得显著的改进，该研究还探索了其他方法以在不增加长度的情况下实现模型性能的提升，并发现了回应长度在奖励模型方面的相关性。

Oct, 2023

直接偏好优化中的长度与质量解耦

人类反馈强化学习对大型语言模型的成功起到至关重要的作用，然而，它存在一些问题，如偏好中的冗长性。本研究通过研究 Direct Preference Optimization（DPO）中的长度问题，提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上，尽管 GPT4 评判者存在冗长偏见，但我们在控制长度的情况下获得了高达 20% 的胜率提升。

Mar, 2024

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024

守口如瓶：从人类反馈中减轻强化学习的长度偏差

通过使用 “Product-of-Experts（PoE）” 技术，我们提出了一种创新的解决方案，将奖励建模与序列长度的影响相分离，从而使语言模型的性能得到提升。

Oct, 2023

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

通过信息论奖励建模减轻奖励作弊

本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制，从信息论的角度解决了强化学习中奖励建模的问题，并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识，提出了一种用于检测奖励过度优化的指标 Integrated Cluster Deviation Score (ICDS)，从而促进在线减缓策略的发展。经过一系列实验证明了 InfoRM 的有效性，进一步分析显示其奖励过度优化检测机制的有效性，这可能标志着 RLHF 领域的显著进步。

Feb, 2024

近端策略优化实战：操纵输出标记长度

通过使用奖励模型和 Proximal Policy Optimization（PPO）来操控模型生成的输出 tokenizer 长度的新任务，实验证实 PPO 在操控输出 tokenizer 长度以及训练效果方面的有效性和发展潜力。

Aug, 2023

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024