神经机器翻译的分割粒度优化

Oct, 2018

Optimizing Segmentation Granularity for Neural Machine Translation

Elizabeth Salesky, Andrew Runge, Alex Coda, Jan Niehues, Graham Neubig

TL;DR本文提出一种自动调节神经机器翻译中分词粒度的方法，可以在训练的同时引入新的词汇并优化语言分割，最终达到与最优表现相似的结果，并在训练效率和罕见词汇的表现方面带来了改进。

Abstract

In neural machine translation (NMT), it is has become standard to translate using subword units to allow for an open vocabulary and improve accuracy on infrequent words. →

neural machine translation subword units byte-pair encoding hyperparameter tuning training efficiency

发现论文，激发创造

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

采用子单元的神经机器翻译生僻词

本文提出了一种基于子单词单位的、更简单且更有效的方法来处理翻译中的开放性词汇问题，并通过实验证明了这种方法相较于备用字典模式可以提升该模型的翻译效果。

Aug, 2015

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

神经机器翻译中目标侧词形变化建模

本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题，该方法是训练系统生成单词的词元和丰富的词性标记，然后进行确定性生成步骤，应用于英语 - 捷克语和英语 - 德语翻译方案中，获得了改进。

Jul, 2017

词、子词或字符？汉英 NMT 中粒度的实证研究

本文对多个使用不同类型划分的翻译模型在中英翻译任务中进行了探究和比较，发现在中文翻译到英文的任务中，使用子词模型效果最好。在英文翻译到中文的任务中，使用混合词形式模型最优。此外，使用混合_BPE 方法在中文翻译到英文的任务中取得了最佳效果。

Nov, 2017

通过字节对编码学习相关语言之间的可变长度单位

本文研究了使用字节对编码（称为 BPE units）以及拼音音节作为翻译任务基本单元的效果，结果表明，BPE units 作为翻译单元略优于拼音音节单元，并且更适用于非元音书写系统的语言。

Oct, 2016

Byte Pair 编码在神经机器翻译中的未登录词效果如何？

本文针对 NMT 中 OOV 问题进行研究，发现尽管 BPE 可在一定程度上处理 OOV，但仍有相当一部分单词翻译错误，特别是涉及语言间距离较远的情况。

Aug, 2022

神经机器翻译中慎重选择子词合并操作的呼吁

本文探索了不同 BPE 合并操作的影响，以理解其与模型架构、构建词表策略和语言对之间的交互。对于 LSTM 架构，需要尝试不同的 BPE 操作，而对于 Transformer 架构，较小的 BPE 尺寸往往是一个典型的最优选择。我们强烈建议社区在选择子词合并操作时谨慎，因为我们的实验表明，单独一个次优的 BPE 配置就可以轻易地将系统性能降低 3-4 BLEU 分数。

May, 2019

论字符级神经机器翻译中词边界的重要性

本文提出了一种更高效的字符级神经机器翻译解码方法，使用词和字符级别的分层解码结构，能够优化机器翻译性能并学习更长的上下文和语法依赖。

Oct, 2019

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020