为提高文档摘要中的强化学习效率而进行的奖励学习

IJCAIJul, 2019

为提高文档摘要中的强化学习效率而进行的奖励学习

Reward Learning for Efficient Reinforcement Learning in Extractive Document Summarisation

Yang Gao, Christian M. Meyer, Mohsen Mesgar, Iryna Gurevych

TL;DR提出了一种新的基于强化学习的文档摘要算法 ——RELIS，它采用学习排序算法训练奖励函数，并在测试时使用该奖励函数来训练输入特定的强化学习策略，相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能，适用于多文档摘要。

Abstract

document summarisation can be formulated as a sequential decision-making problem, which can be solved by reinforcement learning (RL) algorithms. The predominant RL paradigm for summarisation learns a cross-input

document summarisation reinforcement learning learning-to-rank input-specific policies multi-document summarisation

发现论文，激发创造

文本摘要的逆强化学习

本研究使用反向强化学习的方法构建了一个文本摘要模型，通过同时评估摘要代理的奖励函数和优化，我们证明该模型在诸多评测标准中优于 MLE 和 RL 基线模型。

Dec, 2022

更好的奖励带来更好的摘要：无参考学习摘要

从 2500 个摘要的人为评分中学习奖励函数，得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性，使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。

Sep, 2019

用强化学习为抽取式摘要排序

提出了一种用于单文档大意提取的全新算法，能够通过强化学习目标全局优化 ROUGE 评估指标，并在 CNN 和 DailyMail 数据集上进行了实验，展示它在人工和自动评估中均优于现有抽取和生成式提取系统的神经大意提取模型。

Feb, 2018

深度强化学习在全局策略下用于基于查询的提取式摘要

本文提出一种应用基于策略梯度算法的深度强化学习系统的证明性方法，以解决文本摘要中标签不匹配问题，使用无折扣奖励学习具有简单神经网络和简单特征的策略，验证结果表明在全局策略下具有鼓舞人心的表现。

Nov, 2017

RewardsOfSum: 探索用于摘要生成的强化学习奖励

该研究提出了两种用于抽象摘要任务的奖励函数：RwB-Hinge 和 RISK。实验结果表明，这些函数在以 NLL 为基线的基础上实现了一致的性能提升。

Jun, 2021

一项用于从非结构化数据中学习结构的个性化强化学习摘要服务

该论文提出了一种基于个性化概念的分层式摘要方法 Summation，使用强化学习算法生成特定主题的未见文档的个性化摘要，以增强理解、有效导航和满足用户独特需求从大量文献中提取有意义的见解。

Jul, 2023

结合问题感知的语义奖励的强化学习在摘要式问题总结中的应用

本文提出了一种基于强化学习的抽象式问题摘要框架，该框架通过 downstream 任务中的问题类型识别和问题重点识别得到两个新颖的奖励来规范问题生成模型，从而确保问题摘要的语义有效并鼓励包含关键的医疗实体 / 重点。作者在两个基准数据集上对其所提出的方法进行了评估，并取得了比现有模型更高的性能。手动评估总结结果表明生成的问题更具多样性且不具备基线总结的不准确性。

Jul, 2021

基于强化学习的无监督句子自动摘要系统生成多种长度的摘要

本篇论文提出了一种基于强化学习的抽象模型，用于无人工摘要的句子摘要，同时还开发了一种多摘要机制来提高摘要质量。实验结果表明，该模型明显优于抽象和提取式模型，经常生成未包含在原始文本中的新单词。

Dec, 2022

基于关注要点和蕴含的多目标增强摘要

通过强化学习方法，采用 ROUGESal 和 Entail 两种新的奖励函数优化传统指标 ROUGE，实现多重奖励同时优化的方式来提高摘要生成的效果。实验证明，该方法在 CNN/Daily Mail 数据集上达到了新的最高性能水平，并在测试集合 DUC-2002 中有很大的提高。

Apr, 2018

强化学习交互学习时间轴摘要

这篇论文提出了一种基于强化学习的交互式时间轴摘要生成系统，利用复合奖励函数自动调整生成摘要的准确性、相干性和语言流畅性，避免个体用户的反馈，实现时间轴摘要生成的高准确性。

Nov, 2022