Feb, 2024

如何充分利用分词器进行预训练和领域自适应

TL;DR我们的研究表明,分词对于现代 LLMs 至关重要,而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验,并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现,在超过 500 亿个标记的细调过程中,可以对预训练 LLMs 的分词器进行专门优化,从而显著提高生成速度和有效上下文大小。