来自fMRI的证据支持语言模型中的两阶段抽象过程
通过对GPT-2的激活进行统计的方法,将语言模型的高维度激活分解成四个组合类别:词汇、组合、句法和语义表示,并发现组合表示比词汇表示更广泛地招募了大脑皮层网络,并且句法和语义共享一个分布式神经基础。该研究提出了一个多功能的框架来分离神经活动中的语言建构分布式表示。
Mar, 2021
研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系,发现了一种低维的语言表示嵌入模型,可以编码处理各种NLP任务所需的表示之间的关系,并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系,同时主要维度可以用于创建显示大脑的语言处理层次结构的度量。
Jun, 2021
本文研究使用基于Transformer的语言模型,比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示,当模型或数据规模增大时,在音频与语言预测方面均能获得显著性提升,这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。
May, 2023
深度语言模型(DLMs)为理解人脑中自然语言处理机制提供了一种新的计算范式。通过使用分层连续数值向量来表示单词和上下文,DLMs与传统的心理语言学模型不同,从而产生了大量新兴应用,如人类般的文本生成。本文通过展示DLMs的分层层次结构可以模拟大脑中语言理解的时间动态性,从而证明了DLMs的层深与层是否最能预测人脑之间存在强相关。我们利用高时序分辨率的电皮层图谱(ECoG)数据记录参与者在听取一个30分钟叙述时的神经活动,同时将相同的叙述输入高性能DLM(GPT2-XL)中。然后,我们提取DLM的不同层中的上下文嵌入,并使用线性编码模型预测神经活动。首先,我们关注下额下回脑回(IFG),然后扩展我们的模型,跟踪语言处理层次结构中从听觉到句法和语义区域的渐增时态感受窗口。我们的结果揭示了人类语言处理和DLMs之间的联系,DLM的信息逐层累积上下文与高级语言区域的神经活动时机形成镜像关系。
Oct, 2023
通过研究使用大型语言模型(LLMs)探索人工神经处理和语言理解之间相似性的因素,我们发现随着LLMs在基准任务上性能的提高,它们不仅在预测LLM嵌入的神经相应性时表现出更高的脑部相似性,而且它们的分层特征提取路径与大脑的映射更为密切,并且使用较少的层进行相同的编码。此外,我们还比较了不同LLMs的特征提取路径,发现高性能模型在层次化处理机制方面更多地趋同。最后,我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性,并揭示了大脑和LLMs语言处理的融合特点,为开发更加与人类认知处理密切相关的模型提供了新方向。
Jan, 2024
比较神经语言模型和心理可信模型,发现心理可信模型在多种多样的背景下(包括多模态数据集、不同语言等)表现更优,尤其是在融合具象信息的心理可信模型中,对单词和段落层面的大脑活动预测表现最佳。
Apr, 2024
使用大型语言模型研究大脑信号,通过测量模型的预测能力和大脑的相似性,关注大脑活动对语言处理的核心元素,并发现过度依赖大脑信号评分可能导致对大型语言模型与大脑相似性的过度解读。
Jun, 2024