Oct, 2024
MultiTok:适应LZW压缩的可变长度分词方法用于高效的大型语言模型
MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from
LZW Compression
TL;DR本研究解决了大型语言模型训练过程中的资源浪费问题,提出了一种新的分词方法MultiTok,灵感来自于通用的LZW数据压缩。通过将重复短语压缩为多词令牌,MultiTok能够在保持相似准确性的同时,显著提高训练效率,实现了接近2.5倍的训练速度和超过30%的数据减少。