RewardsOfSum: 探索用于摘要生成的强化学习奖励

ACLJun, 2021

RewardsOfSum: 探索用于摘要生成的强化学习奖励

RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation

Jacob Parnell, Inigo Jauregi Unanue, Massimo Piccardi

TL;DR该研究提出了两种用于抽象摘要任务的奖励函数：RwB-Hinge 和 RISK。实验结果表明，这些函数在以 NLL 为基线的基础上实现了一致的性能提升。

Abstract

To date, most abstractive summarisation models have relied on variants of the negative log-likelihood (NLL) as their training objective. In some cases, →

abstractive summarisation negative log-likelihood reinforcement learning reward function nll pretrained model

发现论文，激发创造

更好的奖励带来更好的摘要：无参考学习摘要

从 2500 个摘要的人为评分中学习奖励函数，得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性，使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。

Sep, 2019

深度强化学习结合分布式语义奖励的抽象摘要生成

本研究论文使用分布式语义学方法，提出了一种新的奖励制度 DSR (Distributional Semantics Reward)，用于评估候选摘要的性能，与传统的奖励模式相比，DSR 可以更准确地捕捉自然语言的词汇和构成多样性。

Aug, 2019

文本摘要的逆强化学习

本研究使用反向强化学习的方法构建了一个文本摘要模型，通过同时评估摘要代理的奖励函数和优化，我们证明该模型在诸多评测标准中优于 MLE 和 RL 基线模型。

Dec, 2022

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019

为提高文档摘要中的强化学习效率而进行的奖励学习

提出了一种新的基于强化学习的文档摘要算法 ——RELIS，它采用学习排序算法训练奖励函数，并在测试时使用该奖励函数来训练输入特定的强化学习策略，相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能，适用于多文档摘要。

Jul, 2019

基于 RL 的句子摘要中语法蕴含的质量

本文比较了强化学习（RL）和基于句法的模型（如基于词性标注和依存信息的模型）两种文摘方法的优劣，并探究了它们在生成摘要时的影响，得出了使用两种方法的联合模型在质量评估方面表现最佳，但仅使用强化学习的训练无需更少的参数和更快的训练收敛即可得到与基于句法模型相近的好结果。

Dec, 2019

基于关注要点和蕴含的多目标增强摘要

通过强化学习方法，采用 ROUGESal 和 Entail 两种新的奖励函数优化传统指标 ROUGE，实现多重奖励同时优化的方式来提高摘要生成的效果。实验证明，该方法在 CNN/Daily Mail 数据集上达到了新的最高性能水平，并在测试集合 DUC-2002 中有很大的提高。

Apr, 2018

结合问题感知的语义奖励的强化学习在摘要式问题总结中的应用

本文提出了一种基于强化学习的抽象式问题摘要框架，该框架通过 downstream 任务中的问题类型识别和问题重点识别得到两个新颖的奖励来规范问题生成模型，从而确保问题摘要的语义有效并鼓励包含关键的医疗实体 / 重点。作者在两个基准数据集上对其所提出的方法进行了评估，并取得了比现有模型更高的性能。手动评估总结结果表明生成的问题更具多样性且不具备基线总结的不准确性。

Jul, 2021

抽象摘要中的句子重写的摘要级别训练

本文通过使用句子重写模型，采用先提取常规句子，后对所选句子进行释义来生成摘要的策略，提出了一种通过强化学习直接最大化摘要级别 ROUGE 得分的新型训练信号，并在 CNN / Daily Mail 和纽约时报数据集上展示了新的最先进表现。在整个实验中，我们还演示了它在 DUC-2002 测试集上的普遍适用性。

Sep, 2019

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020