深度强化学习在全局策略下用于基于查询的提取式摘要

Nov, 2017

深度强化学习在全局策略下用于基于查询的提取式摘要

Towards the Use of Deep Reinforcement Learning with Global Policy For Query-based Extractive Summarisation

Diego Molla

TL;DR本文提出一种应用基于策略梯度算法的深度强化学习系统的证明性方法，以解决文本摘要中标签不匹配问题，使用无折扣奖励学习具有简单神经网络和简单特征的策略，验证结果表明在全局策略下具有鼓舞人心的表现。

Abstract

supervised approaches for text summarisation suffer from the problem of mismatch between the target labels/scores of individual sentences and the evaluation score of the final summary. →

text summarisation supervised approaches reinforcement learning policy-gradient algorithm deep reinforcement learning

发现论文，激发创造

强化取代监督：使用深度强化学习进行查询聚焦摘要

提出了一种使用强化学习和多个策略梯度网络的查询导向摘要生成方法，通过改进语义相似性奖励以及使用聚类假设构建的段落嵌入方案，显著提高了生成文本质量和性能。

Nov, 2023

为提高文档摘要中的强化学习效率而进行的奖励学习

提出了一种新的基于强化学习的文档摘要算法 ——RELIS，它采用学习排序算法训练奖励函数，并在测试时使用该奖励函数来训练输入特定的强化学习策略，相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能，适用于多文档摘要。

Jul, 2019

基于强化学习的无监督句子自动摘要系统生成多种长度的摘要

本篇论文提出了一种基于强化学习的抽象模型，用于无人工摘要的句子摘要，同时还开发了一种多摘要机制来提高摘要质量。实验结果表明，该模型明显优于抽象和提取式模型，经常生成未包含在原始文本中的新单词。

Dec, 2022

麦格理大学在 BioASQ 6b 上的表现：基于深度学习和深度强化学习的基于查询的多文档摘要

本文介绍了澳大利亚麦考瑞大学在 BioASQ 6b，B 阶段中的贡献，探讨了多文档摘要中的深度学习和强化学习方法。最佳结果使用了一个基于深度学习模型的回归框架，该模型使用了基于 LSTM 链输出的特征以及与查询的相似度和句子位置有关的特征。同时，强化学习方法也被证明可行，通过 REINFORCE 算法训练全局策略，该策略由使用包含候选句子、问题和上下文的 tf.idf 特征编码的神经网络来实现。

Sep, 2018

使用深度强化学习进行分类的视频摘要

本研究提出了基于增强学习的弱监督视频摘要方法，利用易于获得的视频级别类别标签，并通过训练深度 Q 学习（DQSN）的摘要网络，鼓励摘要包含类别相关信息和保持类别识别性。实验结果表明，该方法在两个基准数据集上均达到了最先进的性能。

Jul, 2018

结合问题感知的语义奖励的强化学习在摘要式问题总结中的应用

本文提出了一种基于强化学习的抽象式问题摘要框架，该框架通过 downstream 任务中的问题类型识别和问题重点识别得到两个新颖的奖励来规范问题生成模型，从而确保问题摘要的语义有效并鼓励包含关键的医疗实体 / 重点。作者在两个基准数据集上对其所提出的方法进行了评估，并取得了比现有模型更高的性能。手动评估总结结果表明生成的问题更具多样性且不具备基线总结的不准确性。

Jul, 2021

一项用于从非结构化数据中学习结构的个性化强化学习摘要服务

该论文提出了一种基于个性化概念的分层式摘要方法 Summation，使用强化学习算法生成特定主题的未见文档的个性化摘要，以增强理解、有效导航和满足用户独特需求从大量文献中提取有意义的见解。

Jul, 2023

层次强化学习实现弱监督视频摘要

提出了一种基于弱监督分层强化学习框架的视频摘要算法，该算法将任务分解为多个子任务，通过训练管理器网络为每个子任务设置子目标，在此基础上使用策略梯度预测视频帧的重要性得分，通过定义的子奖励和全局奖励来解决稀疏问题，并在两个基准数据集上实验证明其具有最佳性能。

Jan, 2020

深度强化学习结合分布式语义奖励的抽象摘要生成

本研究论文使用分布式语义学方法，提出了一种新的奖励制度 DSR (Distributional Semantics Reward)，用于评估候选摘要的性能，与传统的奖励模式相比，DSR 可以更准确地捕捉自然语言的词汇和构成多样性。

Aug, 2019

用强化学习为抽取式摘要排序

提出了一种用于单文档大意提取的全新算法，能够通过强化学习目标全局优化 ROUGE 评估指标，并在 CNN 和 DailyMail 数据集上进行了实验，展示它在人工和自动评估中均优于现有抽取和生成式提取系统的神经大意提取模型。

Feb, 2018