BriefGPT.xyz
Oct, 2024
ReTok:替换分词器以增强大语言模型的表示效率
ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model
HTML
PDF
Shuhao Gu, Mengdi Zhao, Bowen Zhang, Liangdong Wang, Jijie Li...
TL;DR
本研究解决了大语言模型中分词器效率不足的问题,提出了一种通过替换分词器来提升模型表示和处理效率的新方法。实验结果显示,该方法在保证模型性能的同时,显著提高了长文本的解码速度,对模型的应用具有重要影响。
Abstract
Tokenizer
is an essential component for large language models (LLMs), and a
Tokenizer
with a high compression rate can improve the model's
Repres
→