Mar, 2024

拆解标记化: 评估文本压缩及其与模型性能的相关性

TL;DR通过变化训练数据的数量,我们研究了BPE tokenizers的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的tokenizer是一个有前景的研究方向。