Mar, 2024

拆解标记化:评估文本压缩及其与模型性能的相关性

TL;DR通过变化训练数据的数量,我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。