BriefGPT.xyz
Feb, 2024
分词不仅仅是压缩
Tokenization Is More Than Compression
HTML
PDF
Craig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan...
TL;DR
通过广泛实验,我们发现较少的令牌并不会导致更好的下游性能,从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策,特别强调了预标记化的重要性和使用字节对编码(BPE)进行初始化词汇构建的好处。
Abstract
tokenization
is a foundational step in
natural language processing
(NLP) tasks, bridging raw text and
language models
. Existing
→