强大长文摘要化还有多远?
维护事实一致性是抽象文本摘要中的关键问题,传统的自动度量标准无法评估它,最近的研究致力于使用预训练语言模型开发改进的度量方法,但这些度量方法存在令人限制的标记限制,因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外,我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。
Sep, 2023
本文探讨如何在低资源情况下,使用深度神经网络等技术进行长篇法律文件的自动摘要,本文提出了一种基于 GPT-2 的算法,基于语言模型的困惑度,识别出最具有表现力的句子,在提取摘要时提供有效支持,并且该方法胜过了全球其他对手的显著度检测基线。
Mar, 2021
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
通过使用多维度质量度量标准(MQM),我们手动量化了 10 种代表性汇总模型中 8 种主要错误来源,发现在相似设置下,提取式汇总器总体上比其抽象式汇总器表现更好,尤其是在忠实度和事实一致性方面。同时,预训练技术,特别是序列到序列的预训练技术,对于提高文本汇总效果非常有效,其中 BART 效果最好。
Oct, 2020
本文提出了一种解决摘要生成模型中可能存在错误信息的方法,策略包括评估指标度量、新型学习算法、人工评估等,并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。
May, 2021
本文提出了一种神经摘要模型,能够通过简单而有效的机制实现用户对文本长度、风格、感兴趣的实体等高级属性的控制,以生成符合用户需求的高质量摘要,并在 CNN-Dailymail 数据集上优于现有的自动化系统和人工评价。
Nov, 2017