构建 BPE 分词 DFA
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
通过广泛实验,我们发现较少的令牌并不会导致更好的下游性能,从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策,特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。
Feb, 2024
通过在 LibriSpeech 100 小时数据集上的实验证明,当仔细选择标记数量时,端到端 ASR 系统的性能会有所提升。
Apr, 2024
通过子模函数,我们将 BPE 形式化为组合优化问题,并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-(1-e^(sigma (mu*)))- 近似,其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外,我们优化了朴素算法以实现最佳 BPE。
Jun, 2023
本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响,全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示,Farasa 的字节对编码 (BPE) 在多个任务中表现优于其他策略,突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而,在情感分析中存在方言特定的分割问题,影响模型效率。计算效率分析验证了 Farasa 的 BPE 的稳定性,表明其实际可行性。研究发现,词汇量对模型性能的影响有限,在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念,强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性,尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战,增强模型在不同语境中的鲁棒性,并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解,而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。
Mar, 2024
Scaffold-BPE 是对原始的 Byte Pair Encoding(BPE)算法的改进,解决了频率不平衡的问题,通过排除低频 Scaffold Tokens 提高了模型训练的效果。
Apr, 2024
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
在这篇论文中,我们研究了阈值词汇裁剪在字节对编码子词分词中的应用,这是一种后处理步骤,可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能,但我们的实验表明,在各种超参数设置下,词汇裁剪无法提高性能,甚至可能导致严重的性能下降。
Mar, 2024
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。
Dec, 2021