强大长文摘要化还有多远？

EMNLPOct, 2022

How Far are We from Robust Long Abstractive Summarization?

Huan Yee Koh, Jiaxin Ju, He Zhang, Ming Liu, Shirui Pan

TL;DR本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估，并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性，并提出了发展事实一致性度量的方向。最后，我们发布了我们注释的长文档数据集，希望能为更广泛的概述设置开发度量做出贡献。

Abstract

abstractive summarization has made tremendous progress in recent years. In this work, we perform fine-grained human annotations to evaluate long document →

abstractive summarization long document evaluation metrics factual consistency metrics annotated dataset

发现论文，激发创造

LongDocFACTScore: 长文本摘要的事实评估

维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外，我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。

Sep, 2023

使用预训练语言模型在低资源环境下进行长文档摘要

本文探讨如何在低资源情况下，使用深度神经网络等技术进行长篇法律文件的自动摘要，本文提出了一种基于 GPT-2 的算法，基于语言模型的困惑度，识别出最具有表现力的句子，在提取摘要时提供有效支持，并且该方法胜过了全球其他对手的显著度检测基线。

Mar, 2021

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

文本摘要中的抽象化改进

提出使用上下文相关网络和预训练的语言模型来提高抽象文本摘要的生成水平和使用新颖度度量来优化生成的摘要，从而实现比现有方法更高水平的摘要生成。

Aug, 2018

文本摘要技术取得了哪些成就？

通过使用多维度质量度量标准（MQM），我们手动量化了 10 种代表性汇总模型中 8 种主要错误来源，发现在相似设置下，提取式汇总器总体上比其抽象式汇总器表现更好，尤其是在忠实度和事实一致性方面。同时，预训练技术，特别是序列到序列的预训练技术，对于提高文本汇总效果非常有效，其中 BART 效果最好。

Oct, 2020

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

长文档摘要的实证调查：数据集、模型和度量

本综述论文系统性地评估了长文档自动摘要各主要组成部分的研究进展，包括基准数据集、摘要模型和评估方法，并提出未来工作的方向。