构建 BPE 分词 DFA

May, 2024

Constructing a BPE Tokenization DFA

Martin Berglund, Willeke Martens, Brink van der Merwe

TL;DR给出并分析了一种用于有效构建确定性有限自动机的算法，该算法旨在直接处理由流行的字节对编码技术生成的标记化文本，从而可以将许多现有的技术和算法应用于标记化案例，例如模式匹配、标记化词典的等价检查和以各种方式组合标记化语言。

Abstract

Many natural language processing systems operate over tokenizations of text to address the open-vocabulary problem. In this paper, we give and analyze an algorithm for the efficient construction of →

natural language processing tokenizations deterministic finite automata byte pair encoding pattern matching

发现论文，激发创造

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

分词不仅仅是压缩

通过广泛实验，我们发现较少的令牌并不会导致更好的下游性能，从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策，特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。

Feb, 2024

一种在端到端 ASR 系统中修复分词器词汇大小的成本最小化方法

通过在 LibriSpeech 100 小时数据集上的实验证明，当仔细选择标记数量时，端到端 ASR 系统的性能会有所提升。

Apr, 2024

字节对编码的形式化视角

通过子模函数，我们将 BPE 形式化为组合优化问题，并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-（1-e^(sigma (mu*)))- 近似，其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外，我们优化了朴素算法以实现最佳 BPE。

Jun, 2023

对增强的阿拉伯语语言模型的分词策略和词汇量进行探索

本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响，全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示，Farasa 的字节对编码 (BPE) 在多个任务中表现优于其他策略，突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而，在情感分析中存在方言特定的分割问题，影响模型效率。计算效率分析验证了 Farasa 的 BPE 的稳定性，表明其实际可行性。研究发现，词汇量对模型性能的影响有限，在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念，强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性，尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战，增强模型在不同语境中的鲁棒性，并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解，而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。

Mar, 2024

韩语自然语言处理各任务的分词策略实证研究

测试出，对于韩国自然语言处理任务，采用基于词形的分词再使用 BPE 的混合方法效果最佳。

Oct, 2020

Scaffold-BPE：用简单而有效的支架符号去除增强字节对编码

Scaffold-BPE 是对原始的 Byte Pair Encoding（BPE）算法的改进，解决了频率不平衡的问题，通过排除低频 Scaffold Tokens 提高了模型训练的效果。

Apr, 2024

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

神经机器翻译中基于 BPE 词汇修剪的分析

在这篇论文中，我们研究了阈值词汇裁剪在字节对编码子词分词中的应用，这是一种后处理步骤，可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能，但我们的实验表明，在各种超参数设置下，词汇裁剪无法提高性能，甚至可能导致严重的性能下降。

Mar, 2024

从词到字：自然语言处理中开放词汇建模和分词的简史

本文通过调研 pre-neural 和 neural era 中的多种技术，探讨自然语言处理中的 “微观结构”（从字节到词组）建模方式是否应采用字符级或字节级处理，或采取分词处理的基于子字的方法，得出结论：没有一种万能的处理方式适用于所有情况，仍需要认真考虑分词对于不同应用场景的重要性。

Dec, 2021