有条件的文本生成中的奖励游戏

Nov, 2022

Reward Gaming in Conditional Text Generation

Richard Yuanzhe Pang, Vishakh Padmakumar, Thibault Sellam, Ankur P. Parikh, He He

TL;DR通过使用强化学习和人工注释的奖励函数训练条件文本生成模型，我们发现在学习奖励函数过程中会因为引入的噪声或自然产生的假相关性以及协变量偏移等原因导致错误行为被高估，我们探讨了如何避免自然语言生成领域中的奖励欺骗问题和未来的研究方向。

Abstract

To align conditional text generation model outputs with desired behaviors, there has been an increasing focus on training the model using reinforcement learning (RL) with reward functions learned from human annot

conditional text generation reinforcement learning reward functions spurious correlation natural language generation

发现论文，激发创造

使用 Teacher Forcing 恢复文本生成的奖励函数

我们提出了一种基于 teacher forcing 的无特定任务强化学习奖励函数生成方法，其稳定性高并优于自训练和奖励回归方法，可用于缓解曝光偏差或利用非平行数据集的文本生成任务。

Oct, 2022

逆强化学习实现多样文本生成

本论文针对文本生成中奖励稀疏和模式崩溃等问题，提出采用反强化学习方法实现文本生成，即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数，将奖励和策略函数进行优化，实验结果表明该方法较之前的方法可以生成更高质量的文本。

Apr, 2018

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

生成对抗奖励学习用于泛化行为倾向推断

提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

May, 2021

无监督控制文本生成的高效强化学习

提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍。

Apr, 2022

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

基于强化学习的自然语言生成与外部奖励

使用双向编码器 - 解码器、外部奖励和注意力机制，结合强化学习创造自然语言生成的方法，并通过标准对话语料库验证其有效性。

Nov, 2019

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对 StarCraft II 等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019