Mar, 2024

重新思考分词:为大型语言模型打造更好的分词器

TL;DR通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合词汇,从而有效减少标记和类型的数量。比较评估显示,LiB 分词器优于现有的词级和 BPE 分词器,为分词器开发提供了创新方法,并提示未来的基于认知科学的分词器可能更为高效。