来自fMRI的证据支持语言模型中的两阶段抽象过程

Sep, 2024

来自fMRI的证据支持语言模型中的两阶段抽象过程

Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models

Emily Cheng, Richard J. Antonello

TL;DR本研究解决了大型语言模型（LLM）中隐层如何能够有效预测大脑对自然语言刺激反应的核心问题。通过使用流形学习方法，研究发现LLM训练过程中存在一个两阶段的抽象过程，其中第一个“组合”阶段的抽象逐渐压缩到更少的层。研究初步证实，层级编码性能与LLM表示的内在维度之间存在强对应关系，这并非源于其下一个单词预测特性。

Abstract

Research has repeatedly demonstrated that intermediate hidden states extracted from large language models are able to predict measured brain response to natural language stimuli. Yet, very little is known about the representation properties that enable this high prediction performance.

发现论文，激发创造

使用深度网络在大脑中区分语法和语义

通过对GPT-2的激活进行统计的方法，将语言模型的高维度激活分解成四个组合类别：词汇、组合、句法和语义表示，并发现组合表示比词汇表示更广泛地招募了大脑皮层网络，并且句法和语义共享一个分布式神经基础。该研究提出了一个多功能的框架来分离神经活动中的语言建构分布式表示。

Mar, 2021

语言表征空间中的低维结构在大脑响应中有所体现

研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系，发现了一种低维的语言表示嵌入模型，可以编码处理各种NLP任务所需的表示之间的关系，并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系，同时主要维度可以用于创建显示大脑的语言处理层次结构的度量。

Jun, 2021

fMRI中语言编码模型的尺度定律

本文研究使用基于Transformer的语言模型，比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示，当模型或数据规模增大时，在音频与语言预测方面均能获得显著性提升，这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。

May, 2023

利用语言模型绘制大脑地图：一项调查

研究人员调查了超过30个研究、10个数据集和8个测量方法，发现大脑和语言模型激活有一些结构相似性，但现有证据还不充分，需要更多研究。

Jun, 2023

人脑语言处理的时间结构与深度语言模型的分层层级对应

深度语言模型（DLMs）为理解人脑中自然语言处理机制提供了一种新的计算范式。通过使用分层连续数值向量来表示单词和上下文，DLMs与传统的心理语言学模型不同，从而产生了大量新兴应用，如人类般的文本生成。本文通过展示DLMs的分层层次结构可以模拟大脑中语言理解的时间动态性，从而证明了DLMs的层深与层是否最能预测人脑之间存在强相关。我们利用高时序分辨率的电皮层图谱（ECoG）数据记录参与者在听取一个30分钟叙述时的神经活动，同时将相同的叙述输入高性能DLM（GPT2-XL）中。然后，我们提取DLM的不同层中的上下文嵌入，并使用线性编码模型预测神经活动。首先，我们关注下额下回脑回（IFG），然后扩展我们的模型，跟踪语言处理层次结构中从听觉到句法和语义区域的渐增时态感受窗口。我们的结果揭示了人类语言处理和DLMs之间的联系，DLM的信息逐层累积上下文与高级语言区域的神经活动时机形成镜像关系。

Oct, 2023

大型语言模型和大脑中的上下文特征提取层次汇聚

通过研究使用大型语言模型（LLMs）探索人工神经处理和语言理解之间相似性的因素，我们发现随着LLMs在基准任务上性能的提高，它们不仅在预测LLM嵌入的神经相应性时表现出更高的脑部相似性，而且它们的分层特征提取路径与大脑的映射更为密切，并且使用较少的层进行相同的编码。此外，我们还比较了不同LLMs的特征提取路径，发现高性能模型在层次化处理机制方面更多地趋同。最后，我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性，并揭示了大脑和LLMs语言处理的融合特点，为开发更加与人类认知处理密切相关的模型提供了新方向。

Jan, 2024

脑语言表征导航：神经语言模型与心理合理模型的比较分析

比较神经语言模型和心理可信模型，发现心理可信模型在多种多样的背景下（包括多模态数据集、不同语言等）表现更优，尤其是在融合具象信息的心理可信模型中，对单词和段落层面的大脑活动预测表现最佳。

Apr, 2024

语言变形机中高维抽象阶段的出现

一个关键的高维度阶段可以解释许多通用语言模型架构中的核心语言处理，由于其几何属性与功能的关系需要进一步研究。

May, 2024

基于不断增加复杂度的语言模型的fMRI预测恢复大脑左侧化

通过对脑成像数据集的分析，我们发现自然语言处理、词嵌入、编码模型、fMRI数据集和左右脑相关性是关键研究领域。

May, 2024

大型语言模型在大脑中的映射是什么？反对过度依赖脑部评分的案例

使用大型语言模型研究大脑信号，通过测量模型的预测能力和大脑的相似性，关注大脑活动对语言处理的核心元素，并发现过度依赖大脑信号评分可能导致对大型语言模型与大脑相似性的过度解读。

Jun, 2024