基于形态学意识的分词在低资源神经机器翻译中的有效性
本文探究了针对四种多合成语言(Nahuatl,Raramuri,Shipibo-Konibo 和 Wixarika)的一系列监督式和非监督式的词形分割方法,并将词形分割方法与字节对编码(BPEs)进行比较,发现在翻译到和从西班牙语的所有语言对中,除了 Nahuatl 外,非监督式的词形分割算法一直表现优异,而监督式的方法在机器翻译挑战中表现不佳。最后,我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集,以及一个 Raramuri - 西班牙语平行语料库。
Mar, 2022
本文通过对 145 个语言的 92 个圣经翻译及其更多的分类特征的分析,探讨了语言的屈折变化是否使得多语言语言建模更加困难,发现基于神经网络的语言建模方法可以通过采用 FST 等分词策略来进一步降低语言构型的影响。
Dec, 2020
本文研究了形态素如何影响语言模型的性能,通过使用 StateMorph 对芬兰语和俄语进行训练,发现相比于 BPE 和 Morfessor,使用 StateMorph 能够使模型更高效地收敛并获得更好的验证分数。
May, 2023
本文探讨了在训练数据有限的情况下,如何将单词分割为标准化的语素,提出了两种新的模型:LSTM 指针生成器和带有硬单调注意力的序列到序列模型,并在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。结果显示,在低资源情境下,这些新颖的方法比现有方法在所有语言上的准确度都高出 11.4%。然而,在真正的低资源语言波波卢卡语和特佩瓦语中,最好的模型仅获得了 37.4% 和 28.4% 的准确度,因此我们总结出标准化分割仍然是低资源语言中的一个具有挑战性的任务。
Oct, 2020
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
在研究中,我们探究了不同分词方法在从阿拉伯语和英语混合语境中进行机器翻译时的效果。实证结果表明,有意识考虑词形的分词器在分词任务中效果最佳,但在机器翻译中表现不佳。在数据非常稀缺的情况下,采用词频和基于词形的组合进行分词是最有效的。
Oct, 2022
该研究提出了一种基于语言模型的子词分段语言模型(SSLM),在训练期间学习如何分段单词,以优化语言模型的性能。通过统一子词分割和语言建模,SSL 模型学习到优化语言建模性能的子词。结果表明,学习子词分割是现有子词分割器的有效替代方案,可以发现类似词素的子词,以提高其语言模型的能力。
Oct, 2022
本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题,该方法是训练系统生成单词的词元和丰富的词性标记,然后进行确定性生成步骤,应用于英语 - 捷克语和英语 - 德语翻译方案中,获得了改进。
Jul, 2017
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技术在整体上表现良好,显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力,表示采用更多的语言洞察力可以进一步提高性能,超越标准的形态分析。
Nov, 2023
本研究提出了一种基于形态学的单词分割方法,能够在训练时缩小词汇表的同时保留词结构中的语言和语义信息,以协助神经机器翻译,实验结果表明此方法能显著提高土耳其 - 英语和维吾尔 - 中文机器翻译任务的性能,降低数据稀疏性和语言复杂性。
Jan, 2020