EMNLPNov, 2020

改进低资源条件下平行语料库过滤的得分组合方法

TL;DR本文介绍了我们在 WMT20 句子过滤任务中的提交,通过结合每种源语言的自定义 LASER 的分数、用于区分正负配对的语义对齐的分类器的分数和任务开发套件中包含的原始分数,我们在 mBART 微调设置中取得了不错的成效,在 Pashto 和 Khmer 上相对于基线分别提高了 7% 和 5% 的 sacreBLEU 分数。