隐式不可能性训练：利用强化学习提升神经文本生成

ACLJan, 2021

隐式不可能性训练：利用强化学习提升神经文本生成

Implicit Unlikelihood Training: Improving Neural Text Generation with Reinforcement Learning

Evgeny Lagutin, Daniil Gavrilov, Pavel Kalaidin

TL;DR本文提出在语言模型中使用策略梯度强化学习进行微调，以直接优化更好的文本生成，将这种方法应用于最小化生成文本中的重复，并展示了当与 unlikelihood training 相结合时，我们的方法进一步减少了重复而未影响语言模型质量。此外，我们还评估了其他方法来改进训练和解码时间，并使用各种度量标准来比较它们，以达到更好的文本生成输出的控制。

Abstract

Likelihood training and maximization-based decoding result in dull and repetitive generated texts even when using powerful language models (Holtzman et al., 2019). Adding a loss function for regularization was shown to improve →

text generation loss function policy gradient unlikelihood training repetition minimization

发现论文，激发创造

非极大化训练的神经文本生成

提出一种基于非似然训练的神经文本生成方法，有效降低生成文本的重复性，将标准束搜索的输出性能提升至目前最优，并提供了一种强有力的替代神经文本生成中已有技术的方法。

Aug, 2019

使用不可能性训练减少不一致对话的发生

本文使用扩展的反似然损失函数及正则化方法解决了生成式对话模型中含复制文本、重复、高频词汇和逻辑缺陷等问题，并通过采集数据并应用反似然来提高逻辑一致性，实现了具有更强推理能力的生成式对话模型，我们还在多项对话任务中验证了所提出的方法的有效性。

Nov, 2019

逆强化学习实现多样文本生成

本论文针对文本生成中奖励稀疏和模式崩溃等问题，提出采用反强化学习方法实现文本生成，即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数，将奖励和策略函数进行优化，实验结果表明该方法较之前的方法可以生成更高质量的文本。

Apr, 2018

通过自对比训练缓解开放性生成中对重复的学习偏差

本文提出了一种自对比训练方法，以惩罚同一模型的早期检查点在错误预测重复时的输出，并在保持流畅性的同时有效地减轻了重复的问题，同时研究发现语言模型在预测重复令牌时使用更长的范围依赖性，可能导致句子级重复循环。

Jul, 2023

大型语言模型的多方面重复抑制和内容调整

本论文提出一种结合精准和非精准重复抑制技术的自然语言生成方法，使用 token 和序列级别的不可能度量进行训练，推理和后处理，从而控制 LLM 的重复和内容质量。经过实验验证，该方法能够有效地抑制重复和确保内容质量。

Apr, 2023

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021

关于强化学习在神经机器翻译中的缺陷

本研究通过证明机器翻译中 RL 方法不优化预期奖励的方式，并表明其他方法收敛需要时间过长，以此说明 RL 练习对机器翻译的实际贡献应该限于预先训练的参数接近正确翻译的情况，进一步推测观察到的增益可能与训练信号无关，而是由于分布曲线的形状发生了变化。

Jul, 2019

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023

通过学习演示进行文本生成

本论文提出了一种基于离线强化学习的 “GOLD” 算法，用于解决现有文本生成方式的问题，它通过加权学习参考样本，避免了在线强化学习方法所面临的优化问题，并在题目总结、问题生成和机器翻译等方面取得了比 MLE 和策略梯度更好的自动和人工评价结果。

Sep, 2020

关于对文本驱动强化学习应用微调语言模型效果的研究

本文研究了基于文本的强化学习，讨论了语义理解和语言能力对强化学习代理的训练效率以及在类似语义训练游戏中的表现的影响，旨在为文本强化学习情景下的代理微调开发更好的策略。

Apr, 2024