ACLFeb, 2024

频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系

TL;DR大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确,从而导致它们的意外度估计与人类的阅读时间相关性降低。