该研究使用深度学习模型进行文本自动摘要,通过重新排序生成的摘要,显著提高了 ROUGE 1 得分。
Mar, 2022
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
提出了一种新的非确定性分布训练方法,通过根据其质量分配概率质量到不同的候选摘要,从而解决确定性分布训练方法在推断时导致的性能下降问题, 在 CNN/DailyMail 和 XSum 数据集上均取得了优于现有方法的最优结果,并且与质量水平更相关的评估摘要的概率评估。
本文提出了一种基于能量的模型,利用自动评估指标和重排机制对生成的摘要进行排序,以解决当前抽象摘要系统存在的问题。我们的实验结果表明,这种方式可以提高生成摘要的得分,但对高度抽象的摘要的应用要小心,因为现有的指标还不足够可靠。
Oct, 2022
本研究提出了一种基于 BERT 的新度量方法,通过无监督对比学习,评估文档摘要的质量,并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。
Oct, 2020
本文提出了一种基于语义理解的神经生成式摘要模型,通过对显要内容的语义解释学习生成高质量摘要。同时引入一种新的对抗样本评估体制,证明该模型比流行的指针 - 生成式模型更好地识别了离题信息,并且人工评估结果表明本文模型生成的摘要更具信息量和可信度,且冗余度更低。
Oct, 2018
使用 SummaFusion 作为第二阶段抽象化摘要的方法,可以融合多个摘要候选人,达到更好的摘要效果。
本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差,实验结果显示该方法比传统方法更能准确地与人工评估结果相符。
Aug, 2015
本文通过使用句子重写模型,采用先提取常规句子,后对所选句子进行释义来生成摘要的策略,提出了一种通过强化学习直接最大化摘要级别 ROUGE 得分的新型训练信号,并在 CNN / Daily Mail 和纽约时报数据集上展示了新的最先进表现。在整个实验中,我们还演示了它在 DUC-2002 测试集上的普遍适用性。
Sep, 2019
本文提出了一种简单的方法来解决神经网络摘要方法中存在的内容选择问题:使用数据有效的内容选择器来过度确定应该作为摘要的来源文档中的短语,通过作为自底向上的注意步骤来约束模型以生成更简洁而流畅的摘要。该方法比其他端到端内容选择模型更简单且性能更高,在 CNN-DM 和 NYT 语料库中表现出显著的 ROUGE 值提高。此外,内容选择器只需要训练 1000 个句子就可以使摘要器轻松地进行领域转移。
Aug, 2018