神经语言模型和人类语言处理中增量处理的定向评估

ACLJun, 2021

神经语言模型和人类语言处理中增量处理的定向评估

A Targeted Assessment of Incremental Processing in Neural LanguageModels and Humans

Ethan Gotlieb Wilcox, Pranali Vani, Roger P. Levy

TL;DR通过在线实验，比较人类和神经语言模型在语法处理中的情况；发现当神经语言模型遇到语法问题时，会在显著性方面低估人类反应时间的不同，这对于现代语言模型是否接近人类对语法违规的敏感性提出了质疑。

Abstract

We present a targeted, scaled-up comparison of incremental processing in humans and neural language models by collecting by-word reaction time data for sixteen different →

incremental processing syntactic test suites human reaction times language models syntactic violations

发现论文，激发创造

语言模型能够处理递归嵌套的语法结构吗？对比模型与人类的案例研究

本文探讨了如何比较语言模型和人类的能力，并通过一个案例研究表明，给大型语言模型提供一个简单的提示可以使其在处理递归嵌套的语法结构时完善其表现，并指出了评估的差异可能会影响语言模型和人类之间的比较，从而强调了评估认知模型和基础模型之间的重要区别。

Oct, 2022

人工神经网络对人类语言习得的启示

通过使用机器学习及自然语言处理技术，研究语言习得过程，探讨如何让模型学习在有限的语言输入下获取语言知识，以验证关于人类语言学习本质的假说。

Aug, 2022

大脑中的多路径分析

人类通过逐词理解句子来理解句子，这意味着需要解决关于句法关系的临时歧义。我们通过将增量式生成依赖解析器的预测与人们在听音频书时进行功能性神经影像学时期的时间数据相关联来研究人类如何处理这些句法歧义。特别是，我们比较两种关于逐词理解中涉及的句法解析数量的竞争假设：一个与多个。这种比较包括使用经过 LLM 自适应编码的最先进的依赖解析器评估句法意外性与现有的 fMRI 数据集。在英文和中文数据中，我们发现了多通路解析的证据。与这种多通路效应相关的大脑区域包括双侧颞上沟。

Jan, 2024

神经语言模型中的语法推广的系统评估

我们对神经语言模型的句法知识进行了系统评估，发现模型架构的不同对句法泛化性能产生了显著影响，而不同数据集大小的影响相对较低。

May, 2020

神经语言模型对人类实时理解行为的预测能力

通过对二十多种不同的计算模型测试发现，尽管这些模型可能包含不同的结构、方法和数据集，但其前向单词期望和人类阅读行为之间的关系是很直接的，其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异，而在句法知识和预测能力之间不存在重大关系。

Jun, 2020

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

人类和语言模型中的抵押品促进

使用来自 3 个心理语言学实验的刺激，发现当高度异常的单词与前面的语境或最有可能的延续相关时，8 个现代转换器语言模型（BERT、ALBERT、RoBERTa、XLM-R、GPT-2、GPT-Neo、GPT-J 和 XGLM）也几乎总是表现出类似的加工优势，这个现象对于我们对于人类语言理解和语言模型预测的理解都有重要意义。

Nov, 2022

限制记忆能力的语言模型捕捉人类句子处理中的干扰

该研究通过开发一个具有单个自注意头的循环神经语言模型，捕捉到了人类实验中观察到的语义和句法干扰效应。

Oct, 2023

阅读适应的神经模型

研究表明，人类能够快速适应当前语言环境的词汇和句法预期，添加一个简单的适应机制到神经语言模型中可以提高我们对人类阅读时间的预测准确度，该模型不仅可以适应词汇，还可以适应抽象的句法结构。

Aug, 2018

人类句子加工：循环或注意力？

通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力，本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN，并挑战了人类句子处理涉及循环和即时处理的普遍理念，并提供了线索检索的证据

May, 2020