Liputan6：一个用于文本摘要的大规模印度尼西亚数据集

ACLNov, 2020

Liputan6：一个用于文本摘要的大规模印度尼西亚数据集

Liputan6: A Large-scale Indonesian Dataset for Text Summarization

Fajri Koto, Jey Han Lau, Timothy Baldwin

TL;DR本文介绍了一个大规模印尼文摘要数据集，使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法，并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析，揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。

Abstract

In this paper, we introduce a large-scale indonesian summarization dataset. We harvest articles from Liputan6.com, an online news portal,

indonesian summarization dataset language models rouge scores

发现论文，激发创造

IndoSum: 一种新的印尼文本摘要基准数据集

本文介绍了 IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近 200 倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Oct, 2018

XL-Sum：针对 44 种语言的大规模多语言抽象摘要

该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集，其中包含来自 44 种语言的 100 万篇新闻文章及其摘要，旨在支持跨语言抽象文本摘要的未来研究工作，且在许多语言上可实现尤其高的 ROUGE-2 分数。

Jun, 2021

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

MLSUM: 多语言摘要语料库

我们提出了 MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的 150 万篇文章 / 摘要对，与来自 CNN / Daily mail 数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

CrossSum: 跨越 1500 多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集 CrossSum 及其训练模型，表现出优异的 ROUGE 和 LaSE 性能，成为目前最大的跨语言摘要数据集

Dec, 2021

HunSum-1：匈牙利文抽象摘要数据集

介绍 HunSum-1: 一个用于匈牙利摘要生成的数据集，包含 114 万条新闻文章；该数据集是通过 CommonCrawl 从 9 个主要的匈牙利新闻网站收集，清理和去重而构建的；使用该数据集，我们基于 huBERT 和 mT5 构建抽象摘要模型，并对模型结果进行了定量和定性分析。

Feb, 2023

NarraSum：大规模抽象叙述摘要数据集

该论文提出了一个名为 NarraSum 的大规模叙述性摘要数据集，在多种影视类型中收集了 12.2 万个叙述文档及其对应的提取式摘要。实验证明，与最先进的摘要模型相比，人类在 NarraSum 上存在较大的性能差距。我们希望该数据集能够促进未来的摘要研究以及自然语言理解和生成的更广泛研究。

Dec, 2022

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

从新闻到摘要：构建一个用于抽取和概括式摘要的匈牙利语语料库

训练摘要模型需要大量的训练数据。然而，对于像匈牙利语这样资源有限的语言，公开可用的模型和数据集明显稀缺。为了填补这个空白，我们的论文介绍了 HunSum-2，这是一个开源的匈牙利语语料库，适用于训练抽象和提取式摘要模型。该数据集经过了详细的清洗、预处理和去重。除了抽象摘要外，我们还使用句子相似度生成句子级标签，用于提取式摘要。我们使用收集到的数据集训练了提取式和抽象式摘要的基线模型。为了证明训练模型的有效性，我们进行了定量和定性评估。我们的数据集、模型和代码都是公开可用的，鼓励复制、进一步研究以及在各个领域进行实际应用。

Apr, 2024