APRIL: 交互式学习摘要,结合主动偏好学习和强化学习
本研究提出了一个新的交互式框架,可通过优化离线数据和一种新型奖励模型,以少量交互式反馈的方式训练摘要模型,提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。
Apr, 2022
该论文提出了一种基于个性化概念的分层式摘要方法 Summation,使用强化学习算法生成特定主题的未见文档的个性化摘要,以增强理解、有效导航和满足用户独特需求从大量文献中提取有意义的见解。
Jul, 2023
本文提出了一种基于偏好反馈的强化学习算法,结合了主动排序策略,能够在具有限先验知识(如群体机器人)的情景下,使用专家反馈指导智能体的策略搜索,经过少量专家排序即可获得满意的策略。
Aug, 2012
从 2500 个摘要的人为评分中学习奖励函数,得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性,使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。
Sep, 2019
提出了一种新的基于强化学习的文档摘要算法 ——RELIS,它采用学习排序算法训练奖励函数,并在测试时使用该奖励函数来训练输入特定的强化学习策略,相比当下最先进的模型能够将训练时间缩短两个数量级并保持同样的性能,适用于多文档摘要。
Jul, 2019
本篇论文提出了一种基于强化学习的抽象模型,用于无人工摘要的句子摘要,同时还开发了一种多摘要机制来提高摘要质量。实验结果表明,该模型明显优于抽象和提取式模型,经常生成未包含在原始文本中的新单词。
Dec, 2022
从人类反馈中学习强化学习(RLHF)可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响,通过展示人类偏好的采样范围包含一系列的标注者一致性,我们证明了(1)更高准确率的奖励模型和(2)所捕捉到的质量特征的改变。此外,当使用训练有一系列偏好一致性的奖励模型时,我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。
Nov, 2023
提出了一种利用无监督双代理强化学习来优化摘要语义覆盖和流畅度的高效且可解释的压缩摘要方法,该模型由提取器代理和压缩器代理组成,并且两个代理都具有多头注意力指针结构。实验结果表明,该模型在广泛使用的三个数据集上均取得了有希望的表现。
Jun, 2023
这篇论文提出了一种基于强化学习的交互式时间轴摘要生成系统,利用复合奖励函数自动调整生成摘要的准确性、相干性和语言流畅性,避免个体用户的反馈,实现时间轴摘要生成的高准确性。
Nov, 2022