神经语言模型和人类语言处理中增量处理的定向评估
本文探讨了如何比较语言模型和人类的能力,并通过一个案例研究表明,给大型语言模型提供一个简单的提示可以使其在处理递归嵌套的语法结构时完善其表现,并指出了评估的差异可能会影响语言模型和人类之间的比较,从而强调了评估认知模型和基础模型之间的重要区别。
Oct, 2022
人类通过逐词理解句子来理解句子,这意味着需要解决关于句法关系的临时歧义。我们通过将增量式生成依赖解析器的预测与人们在听音频书时进行功能性神经影像学时期的时间数据相关联来研究人类如何处理这些句法歧义。特别是,我们比较两种关于逐词理解中涉及的句法解析数量的竞争假设:一个与多个。这种比较包括使用经过 LLM 自适应编码的最先进的依赖解析器评估句法意外性与现有的 fMRI 数据集。在英文和中文数据中,我们发现了多通路解析的证据。与这种多通路效应相关的大脑区域包括双侧颞上沟。
Jan, 2024
通过对二十多种不同的计算模型测试发现,尽管这些模型可能包含不同的结构、方法和数据集,但其前向单词期望和人类阅读行为之间的关系是很直接的,其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异,而在句法知识和预测能力之间不存在重大关系。
Jun, 2020
本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现,着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力,暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。
Feb, 2023
使用来自 3 个心理语言学实验的刺激,发现当高度异常的单词与前面的语境或最有可能的延续相关时,8 个现代转换器语言模型(BERT、ALBERT、RoBERTa、XLM-R、GPT-2、GPT-Neo、GPT-J 和 XGLM)也几乎总是表现出类似的加工优势,这个现象对于我们对于人类语言理解和语言模型预测的理解都有重要意义。
Nov, 2022
研究表明,人类能够快速适应当前语言环境的词汇和句法预期,添加一个简单的适应机制到神经语言模型中可以提高我们对人类阅读时间的预测准确度,该模型不仅可以适应词汇,还可以适应抽象的句法结构。
Aug, 2018
通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力,本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN,并挑战了人类句子处理涉及循环和即时处理的普遍理念,并提供了线索检索的证据
May, 2020