MMMay, 2019

神经机器翻译中慎重选择子词合并操作的呼吁

TL;DR本文探索了不同 BPE 合并操作的影响,以理解其与模型架构、构建词表策略和语言对之间的交互。对于 LSTM 架构,需要尝试不同的 BPE 操作,而对于 Transformer 架构,较小的 BPE 尺寸往往是一个典型的最优选择。我们强烈建议社区在选择子词合并操作时谨慎,因为我们的实验表明,单独一个次优的 BPE 配置就可以轻易地将系统性能降低 3-4 BLEU 分数。