Oct, 2020

WikiLingua:一种用于跨语言主旨提取的新基准数据集

TL;DR该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。