基于路由机制的领域稳健轻量级奖励模型探索

Jul, 2024

基于路由机制的领域稳健轻量级奖励模型探索

Exploring Domain Robust Lightweight Reward Models based on Router Mechanism

Hyuk Namgoong, Jeesu Jung, Sangkeun Jung, Yoonhyung Roh

TL;DR本研究解决了重训练单一奖励模型在不同领域中表现不佳的问题。提出了基于路由机制的领域特定小型语言模型的三种新方法，旨在优化奖励模型的使用和参数规模。实验结果表明，所提出方法在性能上可与基线方法匹敌，同时显著降低了总参数大小。

Abstract

Recent advancements in large language models have heavily relied on the large reward model from Reinforcement Learning from human feedback for fine-tuning. However, the use of a single reward model across various domains may not always be optimal, often requiring retraining from scratc

发现论文，激发创造

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

精细调整包容性语言模型的代理-环境接口破碎

本文提出了一种新的方法，将预训练的语言模型同时用作策略、奖励函数和转移函数，从而实现了奖励学习和语言模型微调的联合和直接处理，并通过处理认知不确定性来实现高效探索。

May, 2023

WARM: 关于加权平均奖励模型的好处

通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗，本文提出了一种解决方案，即使用加权平均奖励模型（WARM），通过对多个奖励模型进行微调并在权重空间中进行平均，以提高模型预测的质量和对齐度。

Jan, 2024

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

RewardBench：评估语言建模的奖励模型

RewardBench是一个用于评估奖励模型的基准数据集和代码库，旨在增强对奖励模型科学理解的同时，深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组，我们对通过各种方法训练的奖励模型进行了评估，并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现，以促进对RLHF过程的更好理解。

Mar, 2024

直接纳什优化：通过一般偏好教导语言模型自我改进

本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的Direct Nash Optimization算法，并在实验中证明其在性能上优于其他模型。

Apr, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

数据有效的强化学习高阶函数的典型奖励网络

利用Proto-RM框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024

DogeRM: 通过模型合并为奖励模型提供领域知识

通过模型合并将领域知识整合到通用奖励模型中，提高了对齐大型语言模型的性能。

Jul, 2024

大型语言模型在顺序决策中的建模能力

本研究探讨了大型语言模型（LLMs）在强化学习中处理复杂顺序决策问题的能力，填补了这一领域的研究空白。文章提出，通过生成奖励模型，LLMs能够有效地产生决策策略，即使没有特定任务的微调。此外，使用合成数据进行微调不仅显著提升了奖励建模能力，还减少了灾难性遗忘，扩展了其在顺序决策任务中的应用潜力。

Oct, 2024