EMNLPSep, 2021

基于分词边际概率评估语言模型

TL;DR本文研究神经语言模型的 tokenization 对模型性能评估的作用,并提出用边缘似然进行评估。在使用采样的不同估算器比较后,发现边缘困惑度可以更好地反应模型性能,特别是在领域外数据中能表现出更好的鲁棒性。此外,通过测量 tokeniser 信息熵,结果还显示,边缘困惑度与 tokeniser 不确定性之间存在联系。最后,本文讨论了研究结果对语言模型训练和评估的一些影响。