字节对编码的形式化视角

ACLJun, 2023

A Formal Perspective on Byte-Pair Encoding

Vilém Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Tim Vieira...

TL;DR通过子模函数，我们将 BPE 形式化为组合优化问题，并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-（1-e^(sigma (mu*)))- 近似，其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外，我们优化了朴素算法以实现最佳 BPE。

Abstract

byte-pair encoding (BPE) is a popular algorithm used for tokenizing data in nlp, despite being devised initially as a compression method. BPE appears to be a →

byte-pair encoding nlp combinatorial optimization problem greedy algorithm runtime complexity

发现论文，激发创造

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

Scaffold-BPE：用简单而有效的支架符号去除增强字节对编码

Scaffold-BPE 是对原始的 Byte Pair Encoding（BPE）算法的改进，解决了频率不平衡的问题，通过排除低频 Scaffold Tokens 提高了模型训练的效果。

Apr, 2024

通过字节对编码学习相关语言之间的可变长度单位

本文研究了使用字节对编码（称为 BPE units）以及拼音音节作为翻译任务基本单元的效果，结果表明，BPE units 作为翻译单元略优于拼音音节单元，并且更适用于非元音书写系统的语言。

Oct, 2016

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

符号音乐的字节对编码

本文研究在深度学习任务中，如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码，以提高音乐生成和作曲家分类模型的性能和均匀度。

Jan, 2023

随机选择 BPE 合并操作时有哪些变化？不多

通过引入三种简单的随机字节对编码变体并探索选择合并操作的随机化是否显著影响下游机器翻译任务，我们的研究旨在翻译形态丰富的语言，使用贝叶斯线性模型分析表明，两种变体与标准 BPE 几乎没有区别，而另一种变体的性能降低小于预期。我们得出结论，虽然标准 BPE 被广泛使用，但存在一个值得研究的有趣方案的可能性变体宇宙。

May, 2023

使用神经注意力和字节对编码完成代码

本文旨在利用实现自 Li 等人的神经网络进行代码自动补全，我们将该神经网络应用了介于字符和单词编码之间的字节对编码（BPE）对源代码文件进行处理，而无需先转换为抽象语法树（AST）。我们实现了两个模型：一个注意力增强的 LSTM 模型和一个指针网络模型，其中指针网络最初是用来解决词汇表外单词问题的。我们感兴趣的是 BPE 是否能够替代指针网络进行代码自动补全。

Apr, 2020

构建 BPE 分词 DFA

给出并分析了一种用于有效构建确定性有限自动机的算法，该算法旨在直接处理由流行的字节对编码技术生成的标记化文本，从而可以将许多现有的技术和算法应用于标记化案例，例如模式匹配、标记化词典的等价检查和以各种方式组合标记化语言。

May, 2024

BPE-Dropout: 简单而有效的子词规范化

本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法，通过随机扰动 BPE 的分词过程，在相同的 BPE 框架下生成多个分词方法，使用 BPE-dropout 能够显著提高机器翻译质量，比使用 BPE 和其他子词规则化方法均能够带来更好的效果。

Oct, 2019

分词不仅仅是压缩

通过广泛实验，我们发现较少的令牌并不会导致更好的下游性能，从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策，特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。

Feb, 2024