跨模态功能磁共振成像解码视觉和语言

ICLRMar, 2024

跨模态功能磁共振成像解码视觉和语言

Modality-Agnostic fMRI Decoding of Vision and Language

Mitja Nikolaus, Milad Mozafari, Nicholas Asher, Leila Reddy, Rufin VanRullen

TL;DR通过大规模的功能性磁共振成像 (fMRI) 数据集，本研究提出并使用了一种新的模态不可知解码器，能够将大范围的视觉、语言和多模态模型的脑信号映射到刺激表示上，发现模态不可知解码器表现与模态特定解码器相当甚至更好，并且单模态解码器表现与多模态解码器相当，同时高级的视觉区域可以很好地解码文本和图像刺激。

Abstract

Previous studies have shown that it is possible to map brain activation data of subjects viewing images onto the feature representation space of not only vision models (modality-specific decoding) but also language mode

brain activation data modality-agnostic decoders stimulus representations language models visual brain regions

发现论文，激发创造

多模学习脑视语特征解码视觉神经表示

本文提出了一种名为 BraVL 的神经解码通用方法，采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模，以提高对新颖视觉类别的准确性，进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越，进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。

Oct, 2022

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。

Sep, 2022

BrainChat：使用视觉 - 语言预训练模型从脑功能磁共振成像解码语义信息

使用 CoCa 模型，本文提出了一种简单而有效的生成框架 BrainChat，旨在从脑活动中快速实现语义信息解码任务，包括 fMRI 问题回答和 fMRI 字幕生成，通过编码稀疏的 fMRI 数据，利用对比损失将 fMRI、图像和文本嵌入对齐，然后通过交叉注意层将 fMRI 嵌入映射到生成的脑解码器，以最小化字幕损失的方式以回归的方式生成有关 fMRI 的文本内容。成功地超过了现有状态 - of-the-art 方法在 fMRI 字幕生成任务中，并首次实现了 fMRI 问题回答。此外，BrainChat 在没有图像数据的情况下仍可以实现高性能，更适用于现实世界的数据有限场景。

Jun, 2024

透视他们的思维：从跨受试者的 fMRI 学习可迁移的神经表达

我们提出了一种新的方法来解决功能磁共振成像（fMRI）数据稀缺和噪声干扰脑解码模型性能的问题，通过浅层主体特定适配器将跨学科的 fMRI 数据映射到统一的表示中，然后使用共享的深层解码模型将跨学科特征解码为目标特征空间，利用视觉和文本监督进行多模态脑解码的训练，实验证明了我们模型在所有科目中的鲁棒神经表示学习，并且将高级和低级信息相结合可以改善重建度量。

Mar, 2024

基于多模态 Transformer 的大脑编码模型可跨越语言和视觉进行转移

本研究旨在探究多模态变形器提供的洞察能力，通过对多模态编码模型进行训练，发现多模态变形器学习了语言和视觉中概念表示的更多对齐性，并且可以有效预测大脑对于故事和电影的 fMRI 反应，从而揭示了多模态处理的潜力和相关的概念表示模型的比较。

May, 2023

视听语言大脑编码

本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性，发现多模态转换器 VisualBERT 在编码上远优于之前提出的单模态 CNN、图像转换器以及其他先前提出的多模态模型，这表明视觉语言模型的优越性，产生了人们是否在被动地查看图像时，视觉区域的响应是否受到语言处理的影响的问题。

Apr, 2022

利用图像 - 语言基础模型识别人脑中共同可解码的概念

本研究介绍了一种基于高质量预训练多模态表示利用功能磁共振成像技术探索人类大脑微观语义网络的方法，并描述了该方法在检测面孔、身体和空间等重要语义概念的表现及其在个体参与者中的应用。

Jun, 2023

从脑活动中解码高分辨率图像的对比、关注和扩散

介绍了一个两阶段的 fMRI 表示学习框架，通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪，并在第二阶段利用图像自动编码器的指导来调整特征学习者，以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激，实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性，50 种不同目标的情境下，top-1 语义分类的准确率比先前最先进的方法提高了 39.34％。

May, 2023

跨视角脑解码

本文旨在研究跨视图零样本大脑解码在图像说明、图像标记、关键词提取和句子形成等任务中的有效性，研究表明，对于跨视图零样本的大脑解码是切实可行的，并提出了各种视图解码的模型，如图像说明，图像标记，关键词提取和句子形成。

Apr, 2022

揭示多模态网络中的大脑视觉语言融合

使用多模态深度神经网络（DNN）预测了人脑多模态整合的位置，通过预测人类在观看电影时的立体脑电图（SEEG）记录，我们将多模态整合的位置定义为多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。通过对不同架构和多模态训练技术的目标 DNN 模型进行对比，我们发现在大脑区域中存在多个整合多模态信息的神经位点。此外，我们发现在我们评估的多模态训练技术变体中，CLIP 风格的训练最适合下游预测这些位点的神经活动。

Jun, 2024