DRLC：来自 LLM 批评者的强化学习与稠密奖励

Jan, 2024

DRLC：来自 LLM 批评者的强化学习与稠密奖励

DRLC: Reinforcement Learning with Dense Rewards from LLM Critic

Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers...

TL;DR通过引入批评语言模型的框架，利用密集奖励对强化学习中的稀疏奖励进行补偿，本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性，实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提升性能，并且在同一模型作为策略模型和批评模型的设定下，还能提高学习效率。

Abstract

reinforcement learning (RL) can align language models with non-differentiable reward signals, such as human preferences. However, a major challenge arises from the sparsity of these reward signals - typically, th

reinforcement learning language models dense rewards text generation tasks learning efficiency

发现论文，激发创造

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与 MEDIC 框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

Auto MC-Reward：使用大型语言模型自动生成密集奖励以加强《我的世界

本研究介绍了一种名为 Auto MC-Reward 的高级学习系统，它利用大型语言模型（LLMs）自动设计密集奖励函数，从而提高学习效率。

Dec, 2023

无监督控制文本生成的高效强化学习

提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍。

Apr, 2022

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

深度强化学习结合分布式语义奖励的抽象摘要生成

本研究论文使用分布式语义学方法，提出了一种新的奖励制度 DSR (Distributional Semantics Reward)，用于评估候选摘要的性能，与传统的奖励模式相比，DSR 可以更准确地捕捉自然语言的词汇和构成多样性。

Aug, 2019

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023