多目标跨语言摘要:一种新任务及语言中立的方法
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
使用一种多任务框架和共享解码器的方法,跨语言摘要的跨语言资源匮乏问题得以解决,此方法名为MCLAS。通过MCLAS,实验表明其可以在有限的跨语言资源下,显著优于三种基准模型。
May, 2021
通过跨语言检索,提出跨语言摘要数据集CrossSum及其训练模型,表现出优异的ROUGE和LaSE性能,成为目前最大的跨语言摘要数据集
Dec, 2021
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
介绍了基于维基百科15种语言文章的新日数据集 - WikiMulti, 用于跨语言摘要生成 (CLS) 任务,并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。
Apr, 2022
本文介绍一种名为μPLAN的跨语言概括方法,该方法使用中间计划步骤作为跨语言桥梁,通过多语言知识库对计划进行对齐来生成摘要。在针对XWikis数据集的评估中,该规划方法通过ROUGE和忠实度比分方面取得了最先进的性能,并且比非规划基线提高了零-shot转移到新的跨语言语言配对的能力。
May, 2023
跨语言概括是生成与输入文档不同语言(例如从英语到西班牙语)的摘要,使目标语言的使用者能够获得其内容的简洁概述。本文提出重新审视了概括和翻译流程,其中概括和翻译任务按顺序执行,并通过利用许多可用的公共资源进行单语概括和翻译,从而获得了非常有竞争力的零样本性能。此外,所提出的流程是完全可微分的端到端,可以利用少样本微调(如有)的优势。实验证明,所提出的方法在两个当代、广泛采用的跨语言概括数据集(CrossSum和WikiLingua)上表现出了显著的零样本性能,并且与等效的多语言语言模型基准相比,在只有10%的微调样本下在许多语言上取得了优于基准的性能。
Mar, 2024