Apr, 2023

基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间

TL;DR本文研究了基于 Transformer 的语言模型中,各种训练数据和不同容量的模型对于预测人类阅读时间的作用,并发现多数具有当代模型能力的变体,使用约 20 亿个训练标记后,所给出的 surprisal estimates 提供了最佳适合度,而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据,而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。