随机选择 BPE 合并操作时有哪些变化？不多

ACLMay, 2023

随机选择 BPE 合并操作时有哪些变化？不多

What changes when you randomly choose BPE merge operations? Not much

Jonne Sälevä, Constantine Lignos

TL;DR通过引入三种简单的随机字节对编码变体并探索选择合并操作的随机化是否显著影响下游机器翻译任务，我们的研究旨在翻译形态丰富的语言，使用贝叶斯线性模型分析表明，两种变体与标准 BPE 几乎没有区别，而另一种变体的性能降低小于预期。我们得出结论，虽然标准 BPE 被广泛使用，但存在一个值得研究的有趣方案的可能性变体宇宙。

Abstract

We introduce three simple randomized variants of byte pair encoding (BPE) and explore whether randomizing the selection of merge operations substantially affects a downstream →

byte pair encoding randomized variants machine translation morphologically rich languages bayesian linear model

发现论文，激发创造

神经机器翻译中慎重选择子词合并操作的呼吁

本文探索了不同 BPE 合并操作的影响，以理解其与模型架构、构建词表策略和语言对之间的交互。对于 LSTM 架构，需要尝试不同的 BPE 操作，而对于 Transformer 架构，较小的 BPE 尺寸往往是一个典型的最优选择。我们强烈建议社区在选择子词合并操作时谨慎，因为我们的实验表明，单独一个次优的 BPE 配置就可以轻易地将系统性能降低 3-4 BLEU 分数。

May, 2019

BPE 与形态分割：关于四种多合成语言机器翻译的个案研究

本文探究了针对四种多合成语言（Nahuatl，Raramuri，Shipibo-Konibo 和 Wixarika）的一系列监督式和非监督式的词形分割方法，并将词形分割方法与字节对编码（BPEs）进行比较，发现在翻译到和从西班牙语的所有语言对中，除了 Nahuatl 外，非监督式的词形分割算法一直表现优异，而监督式的方法在机器翻译挑战中表现不佳。最后，我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集，以及一个 Raramuri - 西班牙语平行语料库。

Mar, 2022

神经机器翻译中目标侧词形变化建模

本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题，该方法是训练系统生成单词的词元和丰富的词性标记，然后进行确定性生成步骤，应用于英语 - 捷克语和英语 - 德语翻译方案中，获得了改进。

Jul, 2017

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

字节对编码的形式化视角

通过子模函数，我们将 BPE 形式化为组合优化问题，并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-（1-e^(sigma (mu*)))- 近似，其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外，我们优化了朴素算法以实现最佳 BPE。

Jun, 2023

BPE-Dropout: 简单而有效的子词规范化

本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法，通过随机扰动 BPE 的分词过程，在相同的 BPE 框架下生成多个分词方法，使用 BPE-dropout 能够显著提高机器翻译质量，比使用 BPE 和其他子词规则化方法均能够带来更好的效果。

Oct, 2019

通过字节对编码学习相关语言之间的可变长度单位

本文研究了使用字节对编码（称为 BPE units）以及拼音音节作为翻译任务基本单元的效果，结果表明，BPE units 作为翻译单元略优于拼音音节单元，并且更适用于非元音书写系统的语言。

Oct, 2016

基于形态学意识的分词在低资源神经机器翻译中的有效性

比较了基于形态学和 BPE 方法的子词切分对低资源神经机器翻译任务的影响，发现其对翻译性能影响不一，并且各自有表现最好的情况。

Mar, 2021

神经机器翻译中基于 BPE 词汇修剪的分析

在这篇论文中，我们研究了阈值词汇裁剪在字节对编码子词分词中的应用，这是一种后处理步骤，可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能，但我们的实验表明，在各种超参数设置下，词汇裁剪无法提高性能，甚至可能导致严重的性能下降。

Mar, 2024