Mar, 2024
贪婪是所需之物:Tokenizer 推理方法的评估
Greed is All You Need: An Evaluation of Tokenizer Inference Methods
Omri Uzan, Craig W. Schmidt, Chris Tanner, Yuval Pinter
TL;DR通过对七种解码方法在四种不同算法和三个词汇量上的实验进行受控分析,我们提供了一个用于英语的新型内在评估套件,结合了与形态、认知和信息论相关的度量标准,结果显示在常用的分词器中,贪婪解码方法表现出乎意料的好,最近推出的上下文感知分词器 SaGe 在形态对齐上表现最佳。