CroCoSum: 用于跨语言代码切换总结的评估数据集
通过跨语言检索,提出跨语言摘要数据集 CrossSum 及其训练模型,表现出优异的 ROUGE 和 LaSE 性能,成为目前最大的跨语言摘要数据集
Dec, 2021
现有的跨语言摘要(CLS)工作往往通过直接翻译预注摘要来构建 CLS 语料库,可能会包含摘要和翻译过程中的错误。为了解决这个问题,我们提出了 ConvSumX,这是一个跨语言对话摘要基准,通过一个新的注释模式明确考虑源输入上下文。ConvSumX 包括两个子任务,涵盖了三个不同的语言方向。我们对 ConvSumX 和三个广泛使用的手动注释的 CLS 语料库进行了详尽的分析,实验证明 ConvSumX 更加忠实于输入文本。此外,基于相同的观点,我们提出了一个 2 步方法,该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明,2 步方法在 ConvSumX 上超过了强基线模型,并在自动和人工评估下显示出优势。分析表明,源输入文本和摘要对于建模跨语言摘要至关重要。
Jul, 2023
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
通过提出 Cross-lingual Summarization with Compression rate (CSC) 的创新任务,并通过有效的数据增强方法来产生不同压缩率的文档摘要对,从而提高 Cross-Lingual Summarization 的性能。
Oct, 2021
介绍了一个用于在对话文档上建立跨语言摘要系统的基准数据集 ClidSum,该数据集包含来自两个子集(即 SAMSum 和 MediaSum)的 67k + 对话文档和 112k + 不同目标语言的注释摘要。 并在基于 ClidSum 提出了两个监督和半监督场景的基准设置,接着构建了各种基线系统和在 ClidSum 上进行了广泛的实验来提供更深入的分析。最后提出了 mDialBART,该模型通过进一步预训练扩展了 mBART-50(一种多语言 BART),在实验结果中优于 ClidSum 上的强流水线模型,提出了这项任务当前面临的特定挑战并为未来研究提供了多个有前途的方向。
Feb, 2022
使用混合语言预训练的交叉语言文摘模型,在没有任务特定组件的情况下利用单语数据提高语言建模的效果,实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中,我们的模型在英汉和汉英模式下相比现有技术,分别实现了 2.82 和 1.15 ROUGE-1 分数的提升。
Oct, 2020
介绍了基于维基百科 15 种语言文章的新日数据集 - WikiMulti, 用于跨语言摘要生成 (CLS) 任务,并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。
Apr, 2022
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020