Jul, 2022

使用印尼语次词分离器减少印尼语词汇量

TL;DR本文提出了一个基于规则的算法,用于解决印尼语作为一个配对语言的神经机器翻译系统中,由于复合词的形态构成导致词汇量爆炸的罕见单词问题,该算法通过将单词转化为其词根和附加的语素来保留其含义和上下文,实验表明,该方法实用性强,可以显著减少语料库数据的需求,并且相对于不使用此技术的类似神经机器翻译系统,在英印翻译上提供了高达5个BLEU点的改进。