ACLMay, 2021

无监督多语言句子嵌入用于平行语料挖掘

TL;DR本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。