无监督摘要生成的最近趋势
本文综述了近期在基于神经网络的自动文本摘要中的十种最先进的神经网络模型,其中包括五种生成式模型和五种抽取式模型,并讨论了应用于摘要任务的相关技术和未来研究的有前途的方向。
Mar, 2018
自动摘要是计算机缩短文本数据的过程,以创建一个表示原始文本中最重要的信息的子集 (摘要)。现有的摘要方法大致可以分为两类:抽取式和生成式,前者会从源文档中显式选择文本片段 (单词,短语,句子等) ,而后者则会生成新的文本片段来传达源文件中最突出的概念。
Apr, 2022
本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法,并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型,且不太依赖于句子位置。
Oct, 2020
本文介绍了一种基于🈚️ground truth summaries 的情况下,利用文档创建合成数据集、引入多种噪声生成函数以及学习生成原始评论的摘要模型的方法,该方法比抽取式和生成式基线模型都有更好的效果。
Apr, 2020
本文详细介绍了文本摘要的各种方法,包括提取和抽象两种途径,评估指标、基准数据集与未来的研究展望,并讨论了生成摘要的不同评估方法与相关研究中可能出现的挑战和研究机遇。
Mar, 2022
本篇论文提出了一种基于强化学习的抽象模型,用于无人工摘要的句子摘要,同时还开发了一种多摘要机制来提高摘要质量。实验结果表明,该模型明显优于抽象和提取式模型,经常生成未包含在原始文本中的新单词。
Dec, 2022
一种基于孪生网络的无监督抽取式摘要模型,引入了可训练的双向预测目标,在选定的摘要和原始文档之间进行训练。与基于中心性排名的方法不同,我们的抽取式评分器可以进行端到端训练,无需位置假设。此外,我们通过近似 0-1 背包问题求解器引入了一个可微分的长度控制模块,用于端到端可控制长度的抽取。实验证明,相同的句子编码器下,我们的无监督方法在很大程度上优于基于中心性排名的基准方法。在长度控制能力方面,通过我们可训练的背包模块,性能始终优于强基准方法,而无需进行端到端训练。人工评估进一步证明,我们的方法在相关性和一致性方面优于基准方法。
Dec, 2023
本文提出了一种摘要框架,通过将目标的所有评论压缩为多个密集向量以代替传统的前置筛选步骤,从而最大化地保留所有信息,进而生成更具信息量的摘要,并且采用零样本技术,能够有效地生成根据用户需求定制的摘要,实验结果表明了该模型在 Rotten Tomatoes 数据集上的优越性能。
Sep, 2019