WikiHow：一个大规模的文本摘要数据集

Oct, 2018

WikiHow：一个大规模的文本摘要数据集

WikiHow: A Large Scale Text Summarization Dataset

Mahnaz Koupaee, William Yang Wang

TL;DR本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Abstract

sequence-to-sequence models have recently gained the state of the art performance in summarization. However, not too many large-scale high-quality datasets are available and almost all the available ones are main

sequence-to-sequence models summarization large-scale datasets abstractive human-style systems wikihow

发现论文，激发创造

HowSumm：基于 WikiHow 文章的多文档自动摘要数据集

本篇文章提出了 HowSumm 这一全新的数据集，可用于针对查询的多文档摘要 (qMDS) 任务，其目标是从一组来源生成可操作的指令。通过从 wikiHow 网站文章和它们引用的来源中提取数据创建了该数据集，并讨论了与其他摘要语料库的不同之处，实验结果表明，提取式和抽象式摘要模型在该数据集上的性能仍有提升空间。

Oct, 2021

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

SQuALITY: 用较困难的方式构建长文摘要数据集

通过请高质量合同工人阅读原始文档并写出原始摘要，建立了 SQuALITY 数据集，该数据集的第一篇文章概述了主要内容，其余四篇回答了具体问题，实验证明现有自动摘要评估指标不是优秀的质量指标。

May, 2022

BookSum：用于长篇叙述摘要的数据集合集

本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件，并包含三种难度递增的高度抽象的人工撰写的摘要，涵盖段落、章节和整本书的水平。通过该任务的训练和测试，本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。

May, 2021

你熟悉哪些摘要数据集？

本研究手动分析了三个流行的摘要数据集中的 600 份样本，并对 27 个最先进的摘要模型和 5 个流行的度量标准进行了彻底分析。研究揭示出数据集具有不同的数据质量和复杂度分布，对样本复杂度强烈依赖，以及基于引用文本的质量差异导致真实摘要得分偏低等关键见解。

Jun, 2021

WikiDes: 一份基于维基百科的数据集，用于从段落中生成简短描述

介绍了一个新的名为 WikiDes 的数据集，利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明，该方法在文本摘要中的表现优于传统方法，并可用于生成缺失的描述，丰富 Wikidata 知识图谱。

Sep, 2022

BIGPATENT：大规模的抽象和连贯摘要数据集

本研究提出了一个新的数据集 BIGPATENT，包含了 130 万条美国专利文件及其人工写成的抽象摘要，其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中，且比现有的数据集具有更少和更短的提取片段，在此基础上，我们使用各种学习模型对 BIGPATENT 进行了训练和评估，以揭示新的挑战和激励未来的总结研究方向。

Jun, 2019

通过长序列摘要生成维基百科

通过抽取式摘要识别重要信息并使用神经摘要模型生成文章及段落以及整个维基百科文章，特别是引入可扩展关注长序列的仅解码器结构，当给定参考文献时，该模型可以提取相关的事实信息。

Jan, 2018

TLDR9+：一项大规模资源，用于极端压缩社交媒体帖子

本文介绍了 TLDR9 +—— 一个从 Reddit 讨论论坛中提取的包含 900 万多个训练实例的大规模摘要数据集，旨在进行极端摘要，并通过人工注释蒸馏出更细粒度的 TLDRHQ 数据集，进一步点出我们所提出的数据集上不同的最先进的摘要模型。

Oct, 2021

新闻室：一个包含多元提取策略的 130 万篇文章摘要数据集

利用搜索和社交媒体元数据，我们构建了 1.3 百万篇文章及其摘要的 NEWSROOM 数据集，包含不同风格的抽象和抽取策略，为评估该数据集的效用和挑战，我们对该数据集进行了分析和训练现有方法。

Apr, 2018