BrainChat：使用视觉-语言预训练模型从脑功能磁共振成像解码语义信息

Jun, 2024

BrainChat：使用视觉-语言预训练模型从脑功能磁共振成像解码语义信息

BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models

Wanaiu Huang

TL;DR使用CoCa模型，本文提出了一种简单而有效的生成框架BrainChat，旨在从脑活动中快速实现语义信息解码任务，包括fMRI问题回答和fMRI字幕生成，通过编码稀疏的fMRI数据，利用对比损失将fMRI、图像和文本嵌入对齐，然后通过交叉注意层将fMRI嵌入映射到生成的脑解码器，以最小化字幕损失的方式以回归的方式生成有关fMRI的文本内容。成功地超过了现有状态-of-the-art方法在fMRI字幕生成任务中，并首次实现了fMRI问题回答。此外，BrainChat在没有图像数据的情况下仍可以实现高性能，更适用于现实世界的数据有限场景。

Abstract

Semantic information is vital for human interaction, and decoding it from brain activity enables non-invasive clinical augmentative and alternative communication. While there has been significant progress in reconstructing visual images, few studies have focused on the language aspect.

发现论文，激发创造

跨视角脑解码

本文旨在研究跨视图零样本大脑解码在图像说明、图像标记、关键词提取和句子形成等任务中的有效性，研究表明，对于跨视图零样本的大脑解码是切实可行的，并提出了各种视图解码的模型，如图像说明，图像标记，关键词提取和句子形成。

Apr, 2022

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合fMRI神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉-语言潜在空间编码fMRI信号来解决数据稀缺的问题。

Sep, 2022

超越大脑：使用稀疏掩码建模的条件扩散模型进行视觉解码

本文提出了一种使用双条件潜在扩散模型的 MinD-Vis：稀疏掩蔽脑建模方法，通过大型潜在空间中的掩蔽建模来学习 fMRI 数据的有效自我监督表示。实验证明，该方法在语义映射和生成质量方面都优于现有技术，并且只需很少的成对注释即可从脑记录中重建高度合理的图像。

Nov, 2022

脑部字幕：将人脑活动解码成图像和文本

该研究采用fMRI技术和图像生成模型，提出了一种基于大脑神经活动解码为图像文字的方法，该方法包括图像重建流程和基于深度图的图像生成模型，实验证明其在神经科学方面具有广泛应用的潜力。

May, 2023

深度神经网络与脑部对齐：脑编码与解码（调研）

研究通过功能性磁共振成像对大脑的记录，分析了编码模型和解码模型的应用，尤其关注深度学习算法的效果、好处和限制，并总结了神经科学数据集的代表性研究。

Jul, 2023

MindGPT：使用非侵入性脑记录解读所见

通过fMRI信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器MindGPT，该模型建立在具有交叉注意机制的视觉引导神经编码器上，并通过大型语言模型GPT的协同使用来将潜在的神经表示引导到期望的语义方向，从而使MindGPT的神经表示具有可解释性，可以用来评估视觉属性对语义的贡献。实验证明生成的词序列真实地代表了感知刺激中传达的视觉信息（具有关键细节），结果还表明，对于语言解码任务，高级视觉皮层（HVC）比低级视觉皮层（LVC）更具语义信息，仅使用HVC就可以恢复大部分语义信息。MindGPT模型的代码将公开发布在此https URL上。

Sep, 2023

透视他们的思维：从跨受试者的fMRI学习可迁移的神经表达

我们提出了一种新的方法来解决功能磁共振成像（fMRI）数据稀缺和噪声干扰脑解码模型性能的问题，通过浅层主体特定适配器将跨学科的fMRI数据映射到统一的表示中，然后使用共享的深层解码模型将跨学科特征解码为目标特征空间，利用视觉和文本监督进行多模态脑解码的训练，实验证明了我们模型在所有科目中的鲁棒神经表示学习，并且将高级和低级信息相结合可以改善重建度量。

Mar, 2024

跨模态功能磁共振成像解码视觉和语言

通过大规模的功能性磁共振成像 (fMRI) 数据集，本研究提出并使用了一种新的模态不可知解码器，能够将大范围的视觉、语言和多模态模型的脑信号映射到刺激表示上，发现模态不可知解码器表现与模态特定解码器相当甚至更好，并且单模态解码器表现与多模态解码器相当，同时高级的视觉区域可以很好地解码文本和图像刺激。

Mar, 2024

使用fMRI提示的LLM进行开放式词汇听觉神经解码

使用大脑表示作为提示进一步驱动大规模语言模型从脑信号中解码听觉神经信息是可行且有效的。

May, 2024

MindSemantix: 用大脑-语言模型解读大脑视觉经历

通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了MindSemantix，这是一种新颖的多模态框架，使语言模型能够理解脑活动中唤起的语义内容，并形成无缝连接的端到端脑-语言模型。

May, 2024