字节对编码的形式化视角
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
Scaffold-BPE 是对原始的 Byte Pair Encoding(BPE)算法的改进,解决了频率不平衡的问题,通过排除低频 Scaffold Tokens 提高了模型训练的效果。
Apr, 2024
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。
Oct, 2016
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
本文研究在深度学习任务中,如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码,以提高音乐生成和作曲家分类模型的性能和均匀度。
Jan, 2023
通过引入三种简单的随机字节对编码变体并探索选择合并操作的随机化是否显著影响下游机器翻译任务,我们的研究旨在翻译形态丰富的语言,使用贝叶斯线性模型分析表明,两种变体与标准 BPE 几乎没有区别,而另一种变体的性能降低小于预期。我们得出结论,虽然标准 BPE 被广泛使用,但存在一个值得研究的有趣方案的可能性变体宇宙。
May, 2023
本文旨在利用实现自 Li 等人的神经网络进行代码自动补全,我们将该神经网络应用了介于字符和单词编码之间的字节对编码(BPE)对源代码文件进行处理,而无需先转换为抽象语法树(AST)。我们实现了两个模型:一个注意力增强的 LSTM 模型和一个指针网络模型,其中指针网络最初是用来解决词汇表外单词问题的。我们感兴趣的是 BPE 是否能够替代指针网络进行代码自动补全。
Apr, 2020
给出并分析了一种用于有效构建确定性有限自动机的算法,该算法旨在直接处理由流行的字节对编码技术生成的标记化文本,从而可以将许多现有的技术和算法应用于标记化案例,例如模式匹配、标记化词典的等价检查和以各种方式组合标记化语言。
May, 2024
本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法,通过随机扰动 BPE 的分词过程,在相同的 BPE 框架下生成多个分词方法,使用 BPE-dropout 能够显著提高机器翻译质量,比使用 BPE 和其他子词规则化方法均能够带来更好的效果。
Oct, 2019
通过广泛实验,我们发现较少的令牌并不会导致更好的下游性能,从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策,特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。
Feb, 2024