基於 GPT-2 注意力模式的熵和距離預測器，預測閱讀時間超過 GPT-2 驚奇值

EMNLPDec, 2022

基於 GPT-2 注意力模式的熵和距離預測器，預測閱讀時間超過 GPT-2 驚奇值

Entropy- and Distance-Based Predictors From GPT-2 Attention Patterns Predict Reading Times Over and Above GPT-2 Surprisal

PDF

Byung-Doh Oh, William Schuler

TL;DR本文探讨了 Transformer-based 大型语言模型的自我注意力机制在认知建模领域中的作用，提出了基于熵和距离的预测器，并证明了在使用与 GPT-2 语言模型相关的数据进行回归实验时，距离预测器相较于基于 surprisal 的预测器有更高的预测能力。

Abstract

transformer-based large language models are trained to make predictions about the next word by aggregating representations of previous tokens through their self-attention mechanism. In the field of →

transformer-based self-attention cognitive modeling entropy-based predictor distance-based predictors

发现论文，激发创造

Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式？

通过比较两个任务特定的阅读数据集，研究表明，大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质，而任务特定的微调不增加与人类阅读的相关性，并且通过输入减少实验给出了互补信息，表明低熵的注意向量更为可靠。

Apr, 2022

语言模型模拟特定的认知模式：可预测性度量如何与个体差异相互作用的研究

通过整合语言用户的认知能力信息，重新评估了从多种语言模型中估计出的意外性和熵的预测能力，以读时数据作为对处理工作的度量，研究发现大多数情况下，整合认知能力提高了意外性和熵对读时的预测能力，并且研究结果表明分析的语言模型模拟了具有较低语言智力的读者，对具有高语言智力的目标群体的预测估计较不准确。

Jun, 2024

衡量（心理）语言和易读性特征以及它们的溢出效应对预测眼动模式的影响

本文报告了两个眼动追踪语料库和两种语言模型（BERT 和 GPT-2）的实验结果。实验表明，预测自然阅读过程中多种眼动追踪参数时，包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME，实验分析了不同特征组的相对重要性。

Mar, 2022

基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间

本文研究了基于 Transformer 的语言模型中，各种训练数据和不同容量的模型对于预测人类阅读时间的作用，并发现多数具有当代模型能力的变体，使用约 20 亿个训练标记后，所给出的 surprisal estimates 提供了最佳适合度，而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据，而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。

Apr, 2023

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

基于梯度学习的运行时剪枝加速注意力机制

通过引入一个软正则化器来优化自注意力机制的计算，新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。

Apr, 2022

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

人类关注下的句子表示学习

研究发现，将不同权重分配给句子中的单词能够有效提高句子的表达能力，该论文提出了两种基于 Surprisal、POS tags 和 CCG supertags 的注意力机制模型用于改进句子表示，实验证明这种方法显著优于现有模型。

Sep, 2016

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020