Oct, 2022

Luhya 和 Swahili 的极低资源句子对齐

TL;DR本文探讨了使用 LASER 和 LaBSE 这两种预训练模型生成不受语言限制的句子嵌入,在挖掘大型数据集以生成低资源机器翻译平行语料库方面的应用。作者测试了这两种模型在提取两种相关的低资源非洲语言 Luhya 和 Swahili 的双语数据时的表现。实验结果表明,LaBSE 在两种语言上表现优于 LASER。只是两者在对 Luhya 数据进行零射击对齐方面的表现不佳,仅可分别取得 1.5% 和 22.0% 的成功对齐率。作者利用极少量的平行 Luhya 句子对嵌入进行微调后的实验表明,LaBSE 的对齐精度得到了显著提高,达到了 53.3%。此外,限制 cosine 相似度大于 0.7 的句子嵌入对进行对齐也可得到超过 85% 的准确率。