从新闻到摘要：构建一个用于抽取和概括式摘要的匈牙利语语料库

Apr, 2024

从新闻到摘要：构建一个用于抽取和概括式摘要的匈牙利语语料库

From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization

Botond Barta, Dorina Lakatos, Attila Nagy, Milán Konor Nyist, Judit Ács

TL;DR训练摘要模型需要大量的训练数据。然而，对于像匈牙利语这样资源有限的语言，公开可用的模型和数据集明显稀缺。为了填补这个空白，我们的论文介绍了 HunSum-2，这是一个开源的匈牙利语语料库，适用于训练抽象和提取式摘要模型。该数据集经过了详细的清洗、预处理和去重。除了抽象摘要外，我们还使用句子相似度生成句子级标签，用于提取式摘要。我们使用收集到的数据集训练了提取式和抽象式摘要的基线模型。为了证明训练模型的有效性，我们进行了定量和定性评估。我们的数据集、模型和代码都是公开可用的，鼓励复制、进一步研究以及在各个领域进行实际应用。

Abstract

training summarization models requires substantial amounts of training data. However for less resourceful languages like hungarian, openly

training summarization models resourceful languages hungarian hunsum-2 abstractive and extractive summarization

发现论文，激发创造

HunSum-1：匈牙利文抽象摘要数据集

介绍 HunSum-1: 一个用于匈牙利摘要生成的数据集，包含 114 万条新闻文章；该数据集是通过 CommonCrawl 从 9 个主要的匈牙利新闻网站收集，清理和去重而构建的；使用该数据集，我们基于 huBERT 和 mT5 构建抽象摘要模型，并对模型结果进行了定量和定性分析。

Feb, 2023

德国（抽象）文本摘要情况

本研究评估了德语抽象文本摘要的特定现状，并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统，并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外，我们发现现有的系统经常不能与简单的基准线进行比较，并且忽略了更有效和高效的摘要方法。

Jan, 2023

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

HeSum：一个用于希伯来文抽象文本摘要的新数据集

该论文引入了 HeSum，一个专为现代希伯来语抽象文本摘要而设计的基准测试集，其中包含从专业人士撰写的希伯来语新闻网站中获取的 1 万个文章 - 摘要对。通过语言分析，我们证实了 HeSum 的高度抽象性和独特的形态学挑战。我们展示了 HeSum 对于当代最先进的大型语言模型来说具有明显的困难，从而将其确立为希伯来语的生成语言技术以及 MRL 的生成挑战的有价值的试验平台。

Jun, 2024

XL-Sum：针对 44 种语言的大规模多语言抽象摘要

该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集，其中包含来自 44 种语言的 100 万篇新闻文章及其摘要，旨在支持跨语言抽象文本摘要的未来研究工作，且在许多语言上可实现尤其高的 ROUGE-2 分数。

Jun, 2021

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

CrossSum: 跨越 1500 多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集 CrossSum 及其训练模型，表现出优异的 ROUGE 和 LaSE 性能，成为目前最大的跨语言摘要数据集

Dec, 2021

孟加拉文本文档的非监督式抽象摘要

该论文提出了一种基于图的无监督生成式摘要系统，用于低资源语言 Bengali 的单篇文档，只需要使用 POS 标注器和在 Bengali 文本上进行预训练的语言模型，该系统表现比多个聚焦摘要系统更好，并提供了人工注释的数据集以支持未来的研究。

Jan, 2021

Liputan6：一个用于文本摘要的大规模印度尼西亚数据集

本文介绍了一个大规模印尼文摘要数据集，使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法，并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析，揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。

Nov, 2020

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022