人类概念处理中的多模态融合建模：视觉与语言模型

Jul, 2024

人类概念处理中的多模态融合建模：视觉与语言模型

Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models

Anna Bavaresco, Marianne de Heer Kloots, Sandro Pezzelle, Raquel Fernández

TL;DR本研究解决了现有研究大多集中于单模态DNN的问题，探讨了视觉与语言的多模态融合是否比单一模态更能反映人脑活动的真实情况。通过分析参与者在阅读概念词时的fMRI反应，发现多模态视觉与语言模型的表征与大脑语言处理相关区域的激活相关性更强。这一发现有助于理解人类如何整合语言和感知运动信息，从而推动神经科学的研究。

Abstract

Representations from Deep Neural Networks (DNNs) have proven remarkably predictive of Neural Activity involved in both visual and linguistic processing. Despite these successes, most studies to date concern unimo

发现论文，激发创造

视听语言大脑编码

本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性，发现多模态转换器VisualBERT在编码上远优于之前提出的单模态CNN、图像转换器以及其他先前提出的多模态模型，这表明视觉语言模型的优越性，产生了人们是否在被动地查看图像时，视觉区域的响应是否受到语言处理的影响的问题。

Apr, 2022

语言模型与脑部对齐：超越词级语义和预测

本文探讨使用众多的文本数据训练出来的预训练语言机器，对人脑语言理解的预测能力。研究发现，这两者之间的相似性是由下个词的预测机制引起的。作者的实验发现，对机器的语料库进行特定的自然文本刺激文本预测下个词，可以显著提高他们与大脑记录的对齐程度。然而，他们指出与大脑记录对齐的提高不仅仅是由于词汇级别或多词级别语义的改善，他们通过调整词序进一步证实这一点。

Dec, 2022

基于多模态Transformer的大脑编码模型可跨越语言和视觉进行转移

本研究旨在探究多模态变形器提供的洞察能力，通过对多模态编码模型进行训练，发现多模态变形器学习了语言和视觉中概念表示的更多对齐性，并且可以有效预测大脑对于故事和电影的fMRI反应，从而揭示了多模态处理的潜力和相关的概念表示模型的比较。

May, 2023

多模态大型语言模型在预测语言处理中体现人类式的视觉-语言整合的证据

大型语言模型（LLMs）的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论，本文通过研究多模态语言模型（mLLMs）中的视觉关注权重，发现与人类一样，mLLMs中基于多模态输入的预测性语言处理过程也会受到视觉特征的注意引导。

Aug, 2023

多模视觉-语言整合的多模视频变压器与大脑(部分)对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉-语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

大型语言模型和大脑中的上下文特征提取层次汇聚

通过研究使用大型语言模型（LLMs）探索人工神经处理和语言理解之间相似性的因素，我们发现随着LLMs在基准任务上性能的提高，它们不仅在预测LLM嵌入的神经相应性时表现出更高的脑部相似性，而且它们的分层特征提取路径与大脑的映射更为密切，并且使用较少的层进行相同的编码。此外，我们还比较了不同LLMs的特征提取路径，发现高性能模型在层次化处理机制方面更多地趋同。最后，我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性，并揭示了大脑和LLMs语言处理的融合特点，为开发更加与人类认知处理密切相关的模型提供了新方向。

Jan, 2024

脑语言表征导航：神经语言模型与心理合理模型的比较分析

比较神经语言模型和心理可信模型，发现心理可信模型在多种多样的背景下（包括多模态数据集、不同语言等）表现更优，尤其是在融合具象信息的心理可信模型中，对单词和段落层面的大脑活动预测表现最佳。

Apr, 2024

揭示多模态网络中的大脑视觉语言融合

使用多模态深度神经网络（DNN）预测了人脑多模态整合的位置，通过预测人类在观看电影时的立体脑电图（SEEG）记录，我们将多模态整合的位置定义为多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。通过对不同架构和多模态训练技术的目标DNN模型进行对比，我们发现在大脑区域中存在多个整合多模态信息的神经位点。此外，我们发现在我们评估的多模态训练技术变体中，CLIP风格的训练最适合下游预测这些位点的神经活动。

Jun, 2024

基于浅层未训练多头注意力网络的类脑语言处理

通过研究大型语言模型，该论文揭示了语言模型与人类大脑的相似性，重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素，最终提出了一种高度与人类大脑和行为对齐的模型。

Jun, 2024

多模态大语言模型自然形成类人对象概念表示

通过分析行为和神经成像数据，本研究揭示了大型语言模型（LLMs）中的对象概念表示与人类的相关性，证明了LLMs和多模式LLMs已经发展出类似于人类的概念性对象表示，该研究推动了对机器智能的理解并为开发更类似人类的人工认知系统提供了参考。

Jul, 2024