Apr, 2023

人类和机器学习模型的标记可追踪性:一项注释研究

TL;DR本研究比较了六种不同的 tokenization 方法在日语常识问答数据集上人工注释和机器学习模型的表现,分析了 tokenization 的合适性和响应时间等因素和表现的关系,结果表明人类和机器学习模型的 tokenization 不完全一致。