BriefGPT.xyz
大模型
Ask
alpha
关键词
tokenization quality
搜索结果 - 1
拆解标记化:评估文本压缩及其与模型性能的相关性
通过变化训练数据的数量,我们研究了 BPE tokenizers 的压缩能力对预训练语言模型下游性能的影响,我们发现压缩能力与模型性能存在相关性,因此构建压缩效果更好的 tokenizer 是一个有前景的研究方向。
PDF
4 months ago
Prev
Next