跨语言摘要模型与数据集

Feb, 2022

Models and Datasets for Cross-Lingual Summarisation

Laura Perez-Beltrachini, Mirella Lapata

TL;DR本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Abstract

We present a cross-lingual summarisation corpus with long documents in a source language associated with multi-sentence summaries in a target language. The →

发现论文，激发创造

MLSUM: 多语言摘要语料库

我们提出了MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的150万篇文章/摘要对，与来自CNN / Daily mail数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

有限平行资源下的跨语言抽象摘要

使用一种多任务框架和共享解码器的方法，跨语言摘要的跨语言资源匮乏问题得以解决，此方法名为MCLAS。通过MCLAS，实验表明其可以在有限的跨语言资源下，显著优于三种基准模型。

May, 2021

CrossSum: 跨越1500多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集CrossSum及其训练模型，表现出优异的ROUGE和LaSE性能，成为目前最大的跨语言摘要数据集

Dec, 2021

跨语言摘要调查

本研究针对跨语言摘要生成任务进行了全面的系统综述，涵盖数据集、方法和挑战等方面，以便为研究人员提供起点和新想法。

Mar, 2022

WikiMulti: 用于跨语言摘要的语料库

介绍了基于维基百科15种语言文章的新日数据集 - WikiMulti，用于跨语言摘要生成 (CLS) 任务，并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。

Apr, 2022

XWikiGen：低资源语言百科文本生成的跨语言摘要

本研究针对缺乏百科全书文本贡献者的问题，提出了一种基于多语言参考文章的跨语言多文档摘要生成任务，同时建立了一个基准数据集，并提出了一种基于神经网络的有监督和无监督摘要生成系统，实验表明多领域的训练要优于多语言的设置。

Mar, 2023

实现多语言和跨语言摘要统一化

本文提出了一种多对多摘要（M2MS）的通用框架，可以通过预培训的 Pisces 模型实现任何语言的文档摘要生成，特别在零样本学习中性能显著优于现有算法。

May, 2023

跨语言跨时间摘要：数据集、模型、评估

本文探讨如何应用跨语言和跨时期的文字连线技术在信息总结中的应用，并通过构建数据集、建模和评估得出结论：通过中间任务微调的端到端模型的总结质量一般；ChatGPT（无需微调）的总结质量良好，并与人类评分中相关；在对抗攻击的情况下，ChatGPT 在省略和实体替换方面的表现更好。

Jun, 2023

SumTra: 跨语言少样本摘要的可微分管道

跨语言概括是生成与输入文档不同语言（例如从英语到西班牙语）的摘要，使目标语言的使用者能够获得其内容的简洁概述。本文提出重新审视了概括和翻译流程，其中概括和翻译任务按顺序执行，并通过利用许多可用的公共资源进行单语概括和翻译，从而获得了非常有竞争力的零样本性能。此外，所提出的流程是完全可微分的端到端，可以利用少样本微调（如有）的优势。实验证明，所提出的方法在两个当代、广泛采用的跨语言概括数据集（CrossSum和WikiLingua）上表现出了显著的零样本性能，并且与等效的多语言语言模型基准相比，在只有10%的微调样本下在许多语言上取得了优于基准的性能。

Mar, 2024