如何充分利用分词器进行预训练和领域自适应

Feb, 2024

如何充分利用分词器进行预训练和领域自适应

Getting the most out of your tokenizer for pre-training and domain adaptation

Gautier Dagan, Gabriele Synnaeve, Baptiste Rozière

TL;DR我们的研究表明，分词对于现代 LLMs 至关重要，而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验，并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现，在超过 500 亿个标记的细调过程中，可以对预训练 LLMs 的分词器进行专门优化，从而显著提高生成速度和有效上下文大小。

Abstract

tokenization is an understudied and often neglected component of modern llms. Most published works use a single tokenizer for all experiments, often borrowed from another model, without performing ablations or an

tokenization llms tokenizer design code generation pre-trained models

发现论文，激发创造

自适应分词的语言模型高效域适应

通过适应标记器，将预训练语言模型转移到新领域，提供了与基于专门领域的预训练方法相当的性能，同时生成的模型更小且训练和推断时间更短。

Sep, 2021

LLM 培训的标记器选择：微不足道还是至关重要？

在大规模预训练语言模型（LLMs）中，我们进行了一项全面研究，探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现，分词器的选择可以显著影响模型的下游性能、训练和推理成本，并指出常用的分词器评估指标并不能准确预测模型性能，特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言 LLMs 时，仅采用英语分词器会导致严重的性能下降和高达 68% 的额外训练成本，因为其分词词汇表效率低下。

Oct, 2023

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

拆解标记化：评估文本压缩及其与模型性能的相关性

通过变化训练数据的数量，我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响，我们发现压缩能力与模型性能存在相关性，因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。

Mar, 2024

CodeBPE: 大规模语言模型在源代码上预训练的次词元化选项研究

通过对源代码进行大规模语言模型预训练和不同子记号化选项的研究，本文旨在鉴定有效且长度高效的子记号化，并提出了一种可降低 17% 平均长度且不会降低下游性能的子记号化方法，进而提高了 0.5-2% 的质量。

Aug, 2023

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

分词不仅仅是压缩

通过广泛实验，我们发现较少的令牌并不会导致更好的下游性能，从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策，特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。

Feb, 2024

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024