May, 2023

使用通用编码将文本映射到相同的语音 - 正字空间中的机器翻译

TL;DR为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下,我们验证了提出的方法,并且在大多数情况下得到了改进,在类似语言对(Gujarati-Hindi,Marathi-Hindi,Nepali-Hindi,Maithili - Hindi,Punjabi-Hindi 和 Urdu-Hindi)中,在一个案例中提高了约 10 BLEU 分数,而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。