Oct, 2023

LLM培训的标记器选择:微不足道还是至关重要?

TL;DR在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言LLMs时,仅采用英语分词器会导致严重的性能下降和高达68%的额外训练成本,因为其分词词汇表效率低下。