Feb, 2022

XAlign:面向低资源语言的跨语言事实到文本对齐与生成

TL;DR提出两种无监督对齐方法,建立英语结构化的事实与低资源语言句子的有效交叉生成,构建了包含0.45M对跨越8种语言的XAlign数据集,其中有5402种对进行了手动标注,并在该数据集上训练了强大的基线XF2T生成模型。