分词不仅仅是压缩
通过变化训练数据的数量,我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。
Mar, 2024
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。
Dec, 2021
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
通过在 LibriSpeech 100 小时数据集上的实验证明,当仔细选择标记数量时,端到端 ASR 系统的性能会有所提升。
Apr, 2024
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合词汇,从而有效减少标记和类型的数量。比较评估显示,LiB 分词器优于现有的词级和 BPE 分词器,为分词器开发提供了创新方法,并提示未来的基于认知科学的分词器可能更为高效。
Mar, 2024
深入探讨法语生物医学领域中子词标记化的复杂性,并确定可以进行进一步改进的领域,同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法,并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。
Feb, 2024
本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响,全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示,Farasa 的字节对编码 (BPE) 在多个任务中表现优于其他策略,突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而,在情感分析中存在方言特定的分割问题,影响模型效率。计算效率分析验证了 Farasa 的 BPE 的稳定性,表明其实际可行性。研究发现,词汇量对模型性能的影响有限,在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念,强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性,尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战,增强模型在不同语境中的鲁棒性,并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解,而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。
Mar, 2024
本研究提出了一种基于语义的新型分词器,使用词干来增强子词的形成,最小化未编码的单词数量,对接 Trainer,实现了比 SentencePiece 分词器更高效的分词,并在 BERT 模型上实验,表明此方法可以将单词数量提高一倍以上,并显着提高 NLP 模型的收敛速度和单词及句子嵌入的质量,成绩排名 Glue 任务之前,比同等规模的模型优越 50 倍以上。
Apr, 2023
在这篇论文中,我们研究了阈值词汇裁剪在字节对编码子词分词中的应用,这是一种后处理步骤,可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能,但我们的实验表明,在各种超参数设置下,词汇裁剪无法提高性能,甚至可能导致严重的性能下降。
Mar, 2024