神经机器翻译中目标侧词形变化建模
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
本文研究机器翻译中针对形态丰富的目标语言面临的挑战以及采用词元标记策略和语言学知识进行目标语言语言建模的实验,结果表明词汇量限制、语法一致性和语言关联性问题仍然是机器翻译需要解决的重要问题。
Mar, 2022
本文提出一种自动调节神经机器翻译中分词粒度的方法,可以在训练的同时引入新的词汇并优化语言分割,最终达到与最优表现相似的结果,并在训练效率和罕见词汇的表现方面带来了改进。
Oct, 2018
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
本文探究了针对四种多合成语言(Nahuatl,Raramuri,Shipibo-Konibo 和 Wixarika)的一系列监督式和非监督式的词形分割方法,并将词形分割方法与字节对编码(BPEs)进行比较,发现在翻译到和从西班牙语的所有语言对中,除了 Nahuatl 外,非监督式的词形分割算法一直表现优异,而监督式的方法在机器翻译挑战中表现不佳。最后,我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集,以及一个 Raramuri - 西班牙语平行语料库。
Mar, 2022
本研究旨在解决神经机器翻译应用于大词汇量和形态丰富语言的挑战,通过使用基于字符的嵌入法,结合卷积层和高速公路网络来替代传统的基于词的表示法,并测试其在注意力机制双向递归神经网络中的应用,结果表明该方法即使在源语言不富含形态学的情况下也能够在德英 WMT 任务中取得高达 3 个 BLEU 分的改进效果。
Mar, 2016
该研究评估了超参数设置对基于 Transformer 的神经机器翻译在英语 - 爱尔兰语低资源对中的质量的影响。研究中使用了基于 Byte Pair Encoding (BPE) 和 unigram 方法的 SentencePiece 模型。通过修改层数、评估注意力机制中最佳头数、使用不同的正则化技术等变体,发现使用 16k BPE 子词模型优化的 Transformer 模型表现最佳,相较于基线递归神经网络(RNN)模型,BLEU 分数提高了 7.8 个点,与 Google 翻译相比,该翻译引擎实现了显著提升。此外,还通过定量细粒度手动评估,比较了机器翻译系统的表现。使用多维质量度量中的错误分类法(MQM error taxonomy),探讨了基于 RNN 模型和 Transformer 模型生成的错误类型的人类评估。结果表明,表现最佳的 Transformer 系统在准确性和流畅性错误方面与基于 RNN 的模型相比均有显著降低。
Mar, 2024
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
本文针对 NMT 中 OOV 问题进行研究,发现尽管 BPE 可在一定程度上处理 OOV,但仍有相当一部分单词翻译错误,特别是涉及语言间距离较远的情况。
Aug, 2022
本文提出用双向循环神经网络替代 NMT 源语言嵌入层,在任何所需的粒度水平上生成组合表示,从而解决基于统计的分词方法中可能导致的形态错误,实现了从字符 N-gram 组成词表示的 NMT 训练方法的一致逆袭。
May, 2018