联合优化标记化和下游模型
本文提出了一种优化已训练后的下游模型性能的分词方法,该方法通过限制词汇量并训练一个生成相应分词结果的分词器,达到更低的下游模型损失值,比现有方法在各项任务中都表现更佳。其中提出的基于 BiLSTM 的分词器能够比现有非神经网络分词方法更好地捕捉上下文信息。
Apr, 2023
本文旨在研究分词器对预训练语言模型在 scriptio continua 语言(如日语)下游性能的影响,结果表明对于任何类型的任务,使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳,并且每个下游任务都有一个不同的最佳形态分析器。
Jun, 2023
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
Apr, 2024
通过任务自适应分词机制,在心理健康方面增强长文本生成的流程,在多个结果中采样具有可变分词的策略,通过优化基于任务的数据的采样概率,引入了构建专用词汇的策略,并引入了允许将任务特定的令牌集成到预训练模型的分词步骤的词汇合并协议。在对中文和英文的心理问题回答任务进行了广泛实验证明,我们的任务自适应分词方法在生成性能上带来了显著的改进,同时使用的标记量减少了多达 60%。初步实验结果显示,使用我们的分词方法与非常大的语言模型能够取得令人满意的结果。
Oct, 2023
在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言 LLMs 时,仅采用英语分词器会导致严重的性能下降和高达 68% 的额外训练成本,因为其分词词汇表效率低下。
Oct, 2023
通过在九种语言和五种单语言任务的实验中对比预训练的多语言和单语言模型的表现来研究它们之间的差异,结果表明预训练数据规模和专门的单语言分词器对于下游性能同样重要,而对于具有多语言模型词汇表适当表示的语言的性能下降可以忽略不计。使用专门的单语言分词器可以提高几乎每个任务和语言的多语言模型的下游性能。
Dec, 2020
通常被忽略的词汇划分一致性问题影响了文本生成模型在抽取任务上的表现,提出了解决方法并应用于抽取问答任务,通过实验证明了这个方法可以提升模型的性能和稳定性。
Dec, 2022
本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度,并发现跨语言单词表的重叠实际上可能对某些下游任务(如 POS、依赖树标记)产生负面影响,而在命名实体识别和句子级任务(如跨语言检索、NLI)中分享词汇表是有益的。此外,本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此,我们为未来的模型开发人员提供了详细的指导,以选择最适合他们特定应用程序的符号化器。
May, 2023
我们的研究表明,分词对于现代 LLMs 至关重要,而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验,并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现,在超过 500 亿个标记的细调过程中,可以对预训练 LLMs 的分词器进行专门优化,从而显著提高生成速度和有效上下文大小。
Feb, 2024