CroCoSum: 用于跨语言代码切换总结的评估数据集

Mar, 2023

CroCoSum: 用于跨语言代码切换总结的评估数据集

CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization

Ruochen Zhang, Carsten Eickhoff

TL;DR本文介绍了 CroCoSum 数据集，这是一个跨语言代码交替技术新闻摘要的数据集。该数据集包含超过 24000 个英文来源文章和超过 18000 个中文新闻摘要，并展示了现有方法在该数据集上的表现，揭示了现有资源的有限普适性。

Abstract

cross-lingual summarization (CLS) has attracted increasing interest in recent years due to the availability of large-scale web-mined datasets and the advancements of multilingual language models. However, given the rareness of naturally occurring CLS resources, the majority of datasets

cross-lingual summarization code-switching dataset technology news evaluation

发现论文，激发创造

CrossSum: 跨越 1500 多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集 CrossSum 及其训练模型，表现出优异的 ROUGE 和 LaSE 性能，成为目前最大的跨语言摘要数据集

Dec, 2021

再探跨语言摘要：基于语料库的研究与改进注释的新基准

现有的跨语言摘要（CLS）工作往往通过直接翻译预注摘要来构建 CLS 语料库，可能会包含摘要和翻译过程中的错误。为了解决这个问题，我们提出了 ConvSumX，这是一个跨语言对话摘要基准，通过一个新的注释模式明确考虑源输入上下文。ConvSumX 包括两个子任务，涵盖了三个不同的语言方向。我们对 ConvSumX 和三个广泛使用的手动注释的 CLS 语料库进行了详尽的分析，实验证明 ConvSumX 更加忠实于输入文本。此外，基于相同的观点，我们提出了一个 2 步方法，该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明，2 步方法在 ConvSumX 上超过了强基线模型，并在自动和人工评估下显示出优势。分析表明，源输入文本和摘要对于建模跨语言摘要至关重要。

Jul, 2023

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

使用压缩率统一跨语言摘要和机器翻译

通过提出 Cross-lingual Summarization with Compression rate (CSC) 的创新任务，并通过有效的数据增强方法来产生不同压缩率的文档摘要对，从而提高 Cross-Lingual Summarization 的性能。

Oct, 2021

ClidSum: 跨语言对话摘要的基准数据集

介绍了一个用于在对话文档上建立跨语言摘要系统的基准数据集 ClidSum，该数据集包含来自两个子集（即 SAMSum 和 MediaSum）的 67k + 对话文档和 112k + 不同目标语言的注释摘要。并在基于 ClidSum 提出了两个监督和半监督场景的基准设置，接着构建了各种基线系统和在 ClidSum 上进行了广泛的实验来提供更深入的分析。最后提出了 mDialBART，该模型通过进一步预训练扩展了 mBART-50（一种多语言 BART），在实验结果中优于 ClidSum 上的强流水线模型，提出了这项任务当前面临的特定挑战并为未来研究提供了多个有前途的方向。

Feb, 2022

跨语言摘要的混合语言预训练

使用混合语言预训练的交叉语言文摘模型，在没有任务特定组件的情况下利用单语数据提高语言建模的效果，实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中，我们的模型在英汉和汉英模式下相比现有技术，分别实现了 2.82 和 1.15 ROUGE-1 分数的提升。

Oct, 2020

NCLS: 神经跨语言摘要

通过多任务学习、循环翻译等方法，构建神经网络模型用于实现跨语言文本摘要，实验结果证明该模型较传统模型有显著提升。

Aug, 2019

WikiMulti: 用于跨语言摘要的语料库

介绍了基于维基百科 15 种语言文章的新日数据集 - WikiMulti，用于跨语言摘要生成 (CLS) 任务，并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。

Apr, 2022

ClueGraphSum: 让关键线索指导跨语言概括式摘要

该研究提出了一种线索引导的跨语言自动摘要方法来提高自动生成摘要的质量，并针对手写数据进行了实验评估，取得了较好的结果。

Mar, 2022

MLSUM: 多语言摘要语料库

我们提出了 MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的 150 万篇文章 / 摘要对，与来自 CNN / Daily mail 数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020