神经机器翻译的分割粒度优化
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题,该方法是训练系统生成单词的词元和丰富的词性标记,然后进行确定性生成步骤,应用于英语 - 捷克语和英语 - 德语翻译方案中,获得了改进。
Jul, 2017
本文对多个使用不同类型划分的翻译模型在中英翻译任务中进行了探究和比较,发现在中文翻译到英文的任务中,使用子词模型效果最好。在英文翻译到中文的任务中,使用混合词形式模型最优。此外,使用 混合_BPE 方法在中文翻译到英文的任务中取得了最佳效果。
Nov, 2017
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。
Oct, 2016
本文针对 NMT 中 OOV 问题进行研究,发现尽管 BPE 可在一定程度上处理 OOV,但仍有相当一部分单词翻译错误,特别是涉及语言间距离较远的情况。
Aug, 2022
本文探索了不同 BPE 合并操作的影响,以理解其与模型架构、构建词表策略和语言对之间的交互。对于 LSTM 架构,需要尝试不同的 BPE 操作,而对于 Transformer 架构,较小的 BPE 尺寸往往是一个典型的最优选择。我们强烈建议社区在选择子词合并操作时谨慎,因为我们的实验表明,单独一个次优的 BPE 配置就可以轻易地将系统性能降低 3-4 BLEU 分数。
May, 2019
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020