APRIL: 交互式学习摘要，结合主动偏好学习和强化学习

EMNLPAug, 2018

APRIL: 交互式学习摘要，结合主动偏好学习和强化学习

APRIL: Interactively Learning to Summarise by Combining Active Preference Learning and Reinforcement Learning

Yang Gao, Christian M. Meyer, Iryna Gurevych

TL;DR该研究提出了一种基于用户偏好进行交互式自动摘要的方法，通过利用主动学习、偏好学习和强化学习等技术，提高了方法的样本复杂性，并在模拟和真实用户实验中得到了显著的结果提升。

Abstract

We propose a method to perform automatic document summarisation without using reference summaries. Instead, our method interactively learns from users' preferences. The merit of preference-based interactive summarisation is that preferences are easier for users to provide than reference summaries. Existing →

automatic document summarization preference-based interactive learning active learning reinforcement learning sample complexity

发现论文，激发创造

基于偏好的交互式多文档摘要

本研究提出了一种基于互动学习的文本摘要框架 APRIL，通过主动学习、偏好学习和神经强化学习，有效减少了与用户的交互次数，提高了系统的摘要效果。

Jun, 2019

充分利用之前的数据：交互式文本摘要的偏好反馈解决方案

本研究提出了一个新的交互式框架，可通过优化离线数据和一种新型奖励模型，以少量交互式反馈的方式训练摘要模型，提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。

Apr, 2022

一项用于从非结构化数据中学习结构的个性化强化学习摘要服务

该论文提出了一种基于个性化概念的分层式摘要方法 Summation，使用强化学习算法生成特定主题的未见文档的个性化摘要，以增强理解、有效导航和满足用户独特需求从大量文献中提取有意义的见解。

Jul, 2023

基于主动偏好学习的强化学习 APRIL

本文提出了一种基于偏好反馈的强化学习算法，结合了主动排序策略，能够在具有限先验知识（如群体机器人）的情景下，使用专家反馈指导智能体的策略搜索，经过少量专家排序即可获得满意的策略。

Aug, 2012

更好的奖励带来更好的摘要：无参考学习摘要

从 2500 个摘要的人为评分中学习奖励函数，得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性，使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。

Sep, 2019

为提高文档摘要中的强化学习效率而进行的奖励学习

提出了一种新的基于强化学习的文档摘要算法 ——RELIS，它采用学习排序算法训练奖励函数，并在测试时使用该奖励函数来训练输入特定的强化学习策略，相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能，适用于多文档摘要。

Jul, 2019

基于强化学习的无监督句子自动摘要系统生成多种长度的摘要

本篇论文提出了一种基于强化学习的抽象模型，用于无人工摘要的句子摘要，同时还开发了一种多摘要机制来提高摘要质量。实验结果表明，该模型明显优于抽象和提取式模型，经常生成未包含在原始文本中的新单词。

Dec, 2022

强化学习中偏好一致性的影响：摘要生成案例研究

从人类反馈中学习强化学习（RLHF）可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响，通过展示人类偏好的采样范围包含一系列的标注者一致性，我们证明了（1）更高准确率的奖励模型和（2）所捕捉到的质量特征的改变。此外，当使用训练有一系列偏好一致性的奖励模型时，我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。

Nov, 2023

无监督双智能体强化学习实现高效可解释的压缩文本摘要

提出了一种利用无监督双代理强化学习来优化摘要语义覆盖和流畅度的高效且可解释的压缩摘要方法，该模型由提取器代理和压缩器代理组成，并且两个代理都具有多头注意力指针结构。实验结果表明，该模型在广泛使用的三个数据集上均取得了有希望的表现。

Jun, 2023

强化学习交互学习时间轴摘要

这篇论文提出了一种基于强化学习的交互式时间轴摘要生成系统，利用复合奖励函数自动调整生成摘要的准确性、相干性和语言流畅性，避免个体用户的反馈，实现时间轴摘要生成的高准确性。

Nov, 2022