逆强化学习实现多样文本生成

IJCAIApr, 2018

Toward Diverse Text Generation with Inverse Reinforcement Learning

Zhan Shi, Xinchi Chen, Xipeng Qiu, Xuanjing Huang

TL;DR本论文针对文本生成中奖励稀疏和模式崩溃等问题，提出采用反强化学习方法实现文本生成，即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数，将奖励和策略函数进行优化，实验结果表明该方法较之前的方法可以生成更高质量的文本。

Abstract

text generation is a crucial task in NLP. Recently, several adversarial generative models have been proposed to improve the exposure bias problem in text generation. Though these models gain great success, they s

text generation adversarial generative models inverse reinforcement learning reward sparsity mode collapse

发现论文，激发创造

文本摘要的逆强化学习

本研究使用反向强化学习的方法构建了一个文本摘要模型，通过同时评估摘要代理的奖励函数和优化，我们证明该模型在诸多评测标准中优于 MLE 和 RL 基线模型。

Dec, 2022

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

无监督控制文本生成的高效强化学习

提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍。

Apr, 2022

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

通过对抗逆强化学习学习鲁棒奖励

本文提出了一种新颖的反向强化学习算法，基于对抗奖励学习框架，该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性，提高了强化学习的性能和应用范围。

Oct, 2017

TextGAIL: 文本生成的生成对抗模仿学习

本文提出一种基于预训练语言模型的文本生成生成对抗性学习框架，采用对比鉴别器和近端策略优化来稳定和改进文本生成性能，实验证明该方法在无条件和有条件文本生成任务上均优于 MLE 基线。

Apr, 2020

隐式不可能性训练：利用强化学习提升神经文本生成

本文提出在语言模型中使用策略梯度强化学习进行微调，以直接优化更好的文本生成，将这种方法应用于最小化生成文本中的重复，并展示了当与 unlikelihood training 相结合时，我们的方法进一步减少了重复而未影响语言模型质量。此外，我们还评估了其他方法来改进训练和解码时间，并使用各种度量标准来比较它们，以达到更好的文本生成输出的控制。

Jan, 2021