Byte Pair 编码在神经机器翻译中的未登录词效果如何？

Aug, 2022

Byte Pair 编码在神经机器翻译中的未登录词效果如何？

How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in Neural Machine Translation?

Ali Araabi, Christof Monz, Vlad Niculae

TL;DR本文针对 NMT 中 OOV 问题进行研究，发现尽管 BPE 可在一定程度上处理 OOV，但仍有相当一部分单词翻译错误，特别是涉及语言间距离较远的情况。

Abstract

neural machine translation (NMT) is an open vocabulary problem. As a result, dealing with the words not occurring during training (a.k.a. out-of-vocabulary (OOV) words) have long been a fundamental challenge for NMT systems. The predominant method to tackle this problem is

neural machine translation oov words byte pair encoding translation quality linguistically close

发现论文，激发创造

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

神经机器翻译的分割粒度优化

本文提出一种自动调节神经机器翻译中分词粒度的方法，可以在训练的同时引入新的词汇并优化语言分割，最终达到与最优表现相似的结果，并在训练效率和罕见词汇的表现方面带来了改进。

Oct, 2018

神经机器翻译中的生僻词问题解决方案

本文介绍一种利用词对齐算法的数据增强方法来解决神经机器翻译中 out-of-vocabulary 词的翻译问题，并结合字典翻译在 WMT14 英 - 法翻译任务上实现比不使用该方法更高的 BLEU 分数。

Oct, 2014

神经机器翻译中目标侧词形变化建模

本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题，该方法是训练系统生成单词的词元和丰富的词性标记，然后进行确定性生成步骤，应用于英语 - 捷克语和英语 - 德语翻译方案中，获得了改进。

Jul, 2017

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

通过字节对编码学习相关语言之间的可变长度单位

本文研究了使用字节对编码（称为 BPE units）以及拼音音节作为翻译任务基本单元的效果，结果表明，BPE units 作为翻译单元略优于拼音音节单元，并且更适用于非元音书写系统的语言。

Oct, 2016

采用子单元的神经机器翻译生僻词

本文提出了一种基于子单词单位的、更简单且更有效的方法来处理翻译中的开放性词汇问题，并通过实验证明了这种方法相较于备用字典模式可以提升该模型的翻译效果。

Aug, 2015

神经机器翻译中基于 BPE 词汇修剪的分析

在这篇论文中，我们研究了阈值词汇裁剪在字节对编码子词分词中的应用，这是一种后处理步骤，可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能，但我们的实验表明，在各种超参数设置下，词汇裁剪无法提高性能，甚至可能导致严重的性能下降。

Mar, 2024

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020