基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间

Apr, 2023

基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间

Transformer-Based LM Surprisal Predicts Human Reading Times Best with About Two Billion Training Tokens

Byung-Doh Oh, William Schuler

TL;DR本文研究了基于 Transformer 的语言模型中，各种训练数据和不同容量的模型对于预测人类阅读时间的作用，并发现多数具有当代模型能力的变体，使用约 20 亿个训练标记后，所给出的 surprisal estimates 提供了最佳适合度，而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据，而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。

Abstract

Recent psycholinguistic studies have drawn conflicting conclusions about the relationship between the quality of a language model and the ability of its surprisal estimates to predict human reading times, which h

surprisal estimates transformer-based language model training data model capacity human reading times

发现论文，激发创造

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系

大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确，从而导致它们的意外度估计与人类的阅读时间相关性降低。

Feb, 2024

通过温度调整的惊奇度提高对人类阅读时间的拟合

通过概率校准的概念，本文首次关注人类阅读模拟的概率分布，提出使用温度调整的意外度作为预测人类阅读时间的指标，通过三个数据集的实验证明这种意外度可以显著提高阅读时间的预测，在本文的设置中，将温度设置为大约 2.5 可使对数似然度增加 89％。同时，本文还提出了一个校准度量指标来量化可能的人类偏好偏差，并进行了进一步分析以提供相关洞察。

Nov, 2023

多语言语言模型预测人类阅读行为

本文研究利用大型语言模型来预测人类阅读行为，并比较了针对特定语言和多语言的预训练变压器模型在预测荷兰语、英语、德语和俄语文本上反映自然人类句子处理的阅读时间测量方面的表现。结果显示，变压器模型可以准确地模拟人类阅读行为，预测出了各种眼动特征，表明变压器模型可以以类似于人类处理机制的方式隐式地编码语言的相对重要性。作者还分析了这些模型的跨领域和跨语言能力，并展示了它们如何反映人类句子处理。

Apr, 2021

神经语言模型对人类实时理解行为的预测能力

通过对二十多种不同的计算模型测试发现，尽管这些模型可能包含不同的结构、方法和数据集，但其前向单词期望和人类阅读行为之间的关系是很直接的，其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异，而在句法知识和预测能力之间不存在重大关系。

Jun, 2020

语言模型模拟特定的认知模式：可预测性度量如何与个体差异相互作用的研究

通过整合语言用户的认知能力信息，重新评估了从多种语言模型中估计出的意外性和熵的预测能力，以读时数据作为对处理工作的度量，研究发现大多数情况下，整合认知能力提高了意外性和熵对读时的预测能力，并且研究结果表明分析的语言模型模拟了具有较低语言智力的读者，对具有高语言智力的目标群体的预测估计较不准确。

Jun, 2024

在 11 种语言中测试惊奇理论的预测

通过对 11 种不同语言进行研究，我们发现惊奇理论与阅读时间之间存在跨语言的联系，验证了三个预测：惊奇度是否预测阅读时间、预期惊奇度是否预测阅读时间、以及惊奇度与阅读时间之间的联系是否是线性的，从而在更多语言上提供了信息论与递增语言处理之间至今最强大的连接。

Jul, 2023

BERT 受到惊讶的方式？语言异常的逐层检测

本篇论文通过在三种语言模型（BERT，RoBERTa 和 XLNet）的中间层使用高斯模型进行密度估计，评估了我们的方法。结果表明，语言模型使用不同的机制来检测不同类型的语言异常，语义异常和常识异常在 RoBERTa 模型上没有在任何中间层中表现出异常惊异。

May, 2021

使用神经机器翻译预测人类翻译难度

人工翻译人员的阅读和翻译速度能够被神经机器翻译（NMT）模型的意外性和注意力特征解释，意外性是翻译困难度最成功的预测因素之一。

Dec, 2023

词汇、次词及形态素：令人惊讶度与阅读时间之间真正的关系是什么？

基于 LLMs 的预测基于子词标记而不是词素分解，我们通过比较使用拼写、词素和 BPE 标记的惊异估计与阅读时间数据来仔细测试这一重要假设，我们的结果重现了以前的研究发现并提供了证据，表明使用 BPE 标记的预测相对于词法和拼写分割并没有出现问题，但经过更详细的分析发现依赖于 BPE 标记可能存在潜在问题，同时也提供了相关研究的有希望结果，并提出了一种评估词素预测的新方法。

Oct, 2023