NarraSum：大规模抽象叙述摘要数据集

EMNLPDec, 2022

NarraSum：大规模抽象叙述摘要数据集

NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization

Chao Zhao, Faeze Brahman, Kaiqiang Song, Wenlin Yao, Dian Yu...

TL;DR该论文提出了一个名为 NarraSum 的大规模叙述性摘要数据集，在多种影视类型中收集了 12.2 万个叙述文档及其对应的提取式摘要。实验证明，与最先进的摘要模型相比，人类在 NarraSum 上存在较大的性能差距。我们希望该数据集能够促进未来的摘要研究以及自然语言理解和生成的更广泛研究。

Abstract

narrative summarization aims to produce a distilled version of a narrative to describe its most salient events and characters. Summarizing a narrative is challenging as it requires an understanding of event causality

narrative summarization narrasum dataset abstractive summaries event causality natural language understanding

发现论文，激发创造

BookSum：用于长篇叙述摘要的数据集合集

本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件，并包含三种难度递增的高度抽象的人工撰写的摘要，涵盖段落、章节和整本书的水平。通过该任务的训练和测试，本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。

May, 2021

MediaSum：面向对话摘要的大规模媒体采访数据集

介绍了一个名叫 MediaSum 的大规模媒体采访数据集，包含 463.6K 份采访文本和摘要，被用于探究电视和广播采访文本的独特位置偏差以及转移学习在改进对话摘要模型上的应用。

Mar, 2021

SummScreen：用于剧本抽象摘要的数据集

该研究介绍了一个摘要数据集，提供了一个具有挑战性的抽象摘要测试平台，并通过对神经模型和邻近算法等多种方法的评估，展示了神经模型无法充分利用输入文本的事实，同时证明了我们的非最优模型在生成忠实的情节事件方面具有竞争力，并可以从更好的内容选择器中受益。

Apr, 2021

Liputan6：一个用于文本摘要的大规模印度尼西亚数据集

本文介绍了一个大规模印尼文摘要数据集，使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法，并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析，揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。

Nov, 2020

SAMSum Corpus: 一个人工标注的对话文本数据集用于提取式摘要

本研究介绍了 SAMSum 语料库，这是一个新的抽象对话摘要数据集，研究人员使用多个模型进行测试，并将其结果与新闻文章语料库的结果进行比较，结果显示与人类评估者的判断相反，模型生成的对话摘要具有更高的 ROUGE 分数，这表明需要使用专用模型和非标准质量度量的抽象对话摘要这一具有挑战性的任务，据我们所知，这是引入高质量聊天对话语料库的第一次尝试，并手动注释了抽象摘要，可供研究人员进行进一步研究。

Nov, 2019

XL-Sum：针对 44 种语言的大规模多语言抽象摘要

该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集，其中包含来自 44 种语言的 100 万篇新闻文章及其摘要，旨在支持跨语言抽象文本摘要的未来研究工作，且在许多语言上可实现尤其高的 ROUGE-2 分数。

Jun, 2021

BIGPATENT：大规模的抽象和连贯摘要数据集

本研究提出了一个新的数据集 BIGPATENT，包含了 130 万条美国专利文件及其人工写成的抽象摘要，其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中，且比现有的数据集具有更少和更短的提取片段，在此基础上，我们使用各种学习模型对 BIGPATENT 进行了训练和评估，以揭示新的挑战和激励未来的总结研究方向。

Jun, 2019

TLDR9+：一项大规模资源，用于极端压缩社交媒体帖子

本文介绍了 TLDR9 +—— 一个从 Reddit 讨论论坛中提取的包含 900 万多个训练实例的大规模摘要数据集，旨在进行极端摘要，并通过人工注释蒸馏出更细粒度的 TLDRHQ 数据集，进一步点出我们所提出的数据集上不同的最先进的摘要模型。

Oct, 2021

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

IndoSum: 一种新的印尼文本摘要基准数据集

本文介绍了 IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近 200 倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Oct, 2018