跨语言摘要模型与数据集
我们提出了MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的150万篇文章/摘要对,与来自CNN / Daily mail数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
使用一种多任务框架和共享解码器的方法,跨语言摘要的跨语言资源匮乏问题得以解决,此方法名为MCLAS。通过MCLAS,实验表明其可以在有限的跨语言资源下,显著优于三种基准模型。
May, 2021
通过跨语言检索,提出跨语言摘要数据集CrossSum及其训练模型,表现出优异的ROUGE和LaSE性能,成为目前最大的跨语言摘要数据集
Dec, 2021
介绍了基于维基百科15种语言文章的新日数据集 - WikiMulti, 用于跨语言摘要生成 (CLS) 任务,并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。
Apr, 2022
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
Mar, 2023
本文探讨如何应用跨语言和跨时期的文字连线技术在信息总结中的应用,并通过构建数据集、建模和评估得出结论:通过中间任务微调的端到端模型的总结质量一般;ChatGPT(无需微调)的总结质量良好,并与人类评分中相关;在对抗攻击的情况下,ChatGPT 在省略和实体替换方面的表现更好。
Jun, 2023
跨语言概括是生成与输入文档不同语言(例如从英语到西班牙语)的摘要,使目标语言的使用者能够获得其内容的简洁概述。本文提出重新审视了概括和翻译流程,其中概括和翻译任务按顺序执行,并通过利用许多可用的公共资源进行单语概括和翻译,从而获得了非常有竞争力的零样本性能。此外,所提出的流程是完全可微分的端到端,可以利用少样本微调(如有)的优势。实验证明,所提出的方法在两个当代、广泛采用的跨语言概括数据集(CrossSum和WikiLingua)上表现出了显著的零样本性能,并且与等效的多语言语言模型基准相比,在只有10%的微调样本下在许多语言上取得了优于基准的性能。
Mar, 2024