Nov, 2023

利用封闭访问的多语言嵌入进行低资源语言的自动句子对齐

TL;DR我们提出了一个简单而定性的平行句子对齐算法,利用闭源 Cohere 多语言嵌入,通过与 MAFAND-MT 数据集训练翻译模型,在 FLORES 和 MAFAND-MT 上分别实现了 $94.96$ 和 $54.83$ 的 f1 分数,相较于 LASER,BLEU 分数提升了超过 5 个单位。