长文本和多表总结：数据集和方法

EMNLPFeb, 2023

长文本和多表总结：数据集和方法

Long Text and Multi-Table Summarization: Dataset and Method

Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen

TL;DR旨在创造简明摘要以涵盖输入文档的要点信息。自动文档摘要对文本和非文本内容进行了讨论，提出了涵盖定量描述的关键指标的表格数据的重要性，提出了一个大规模数据集和三种摘要方法，还评估了评估指标

Abstract

automatic document summarization aims to produce a concise summary covering the input document's salient information. Within a report document, the salient information can be scattered in the textual and non-textual con

automatic document summarization textual and non-textual content tabular data long text multi-table summarization

发现论文，激发创造

长文档摘要的实证调查：数据集、模型和度量

本综述论文系统性地评估了长文档自动摘要各主要组成部分的研究进展，包括基准数据集、摘要模型和评估方法，并提出未来工作的方向。

Jul, 2022

ChartSumm: 长短汇总自动图表概括的综合基准

本文介绍了 ChartSumm 数据集，它是一个大规模的基准数据集，由 84,363 个图表及其元数据和描述组成，涵盖了各种主题和图表类型。该数据集可用于生成短和长的摘要，用以提供给视障人士以及为其他数据驱动模型的训练提供基础。通过使用 ChartSumm 数据集进行大量实验，发现仍有调查的空间，如资料遗漏，产生幻觉，以及对图表中复杂趋势的不恰当解释。作者研究了扩展 ChartSumm 数据集以适用于其他语言的潜力，这使我们的数据集成为未来研究的有挑战性的基准。

Apr, 2023

BookSum：用于长篇叙述摘要的数据集合集

本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件，并包含三种难度递增的高度抽象的人工撰写的摘要，涵盖段落、章节和整本书的水平。通过该任务的训练和测试，本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。

May, 2021

生成大量学术论文结构化摘要：数据集和方法

提出了一种名为 CAST 的归类对齐和稀疏变换器的自动摘要方法，使用 BigSurvey 数据集，将超过 7000 份调查论文的摘要作为目标摘要，430,000 篇参考论文的摘要作为输入文档，赢得了各种高级自动摘要方法的比较实验。

Feb, 2023

SQuALITY: 用较困难的方式构建长文摘要数据集

通过请高质量合同工人阅读原始文档并写出原始摘要，建立了 SQuALITY 数据集，该数据集的第一篇文章概述了主要内容，其余四篇回答了具体问题，实验证明现有自动摘要评估指标不是优秀的质量指标。

May, 2022

生成长文档的扩展摘要

本研究基于多任务学习方法，利用文件的层次结构生成长篇文献的扩展摘要，并在三个大型数据集上验证其优于其他强基准模型的性能，为长篇文献摘要生成任务的未来研究提供了深入的洞见。

Dec, 2020

为长篇科技文献带来结构：一个多方位摘要数据集

本文介绍了 FacetSum 这一基于 Emerald 期刊文章的多方位摘要基准数据集，其不同于传统的文档 - 摘要对，提供了多个摘要，针对长文档的不同部分，包括目的、方法、发现和价值等方面，对数据集的分析和实证结果揭示了将结构引入摘要的重要性。我们相信 FacetSum 将推动摘要研究的进一步发展，促进 NLP 系统在长文本和摘要中利用结构信息的发展。

May, 2021

QTSumm：面向查询的表格摘要新基准

本研究定义了一个新的针对查询的表格摘要任务，并提出了一个新的名为 QTSumm 的基准测试，其中包含 5625 个在各种主题的 2437 个表格上人工注释的查询摘要对。实验结果和手动分析表明，我们的基准测试为未来的表格到文本生成研究提供了重要挑战和发展机会。

May, 2023

神经文本摘要：一项关键评估

评估标准数据集、评估指标、模型三方面存在的问题，提出了数据集自动采集、评估不足以反映人类判断、模型样本不足多样化等三个主要问题，导致长文本摘要进展不一。

Aug, 2019

对话式搜索中表格数据的总结和探索

本文提出一种基于自然语言摘要的表格信息检索方法，并利用一个新的以对话为导向、面向开放领域的表格摘要数据集来构建 SOTA 基线系统，并指出了未来研究方向和挑战。

May, 2020