MindSemantix: 用大脑-语言模型解读大脑视觉经历

May, 2024

MindSemantix: 用大脑-语言模型解读大脑视觉经历

MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model

Ziqi Ren, Jie Li, Xuetong Xue, Xin Li, Fan Yang...

TL;DR通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了MindSemantix，这是一种新颖的多模态框架，使语言模型能够理解脑活动中唤起的语义内容，并形成无缝连接的端到端脑-语言模型。

Abstract

Deciphering the human visual experience through brain activities captured by fMRI represents a compelling and cutting-edge challenge in the field of neuroscience research. Compared to merely predicting the viewed image itself, decoding brain activity into meaningful captions provides a

发现论文，激发创造

视听语言大脑编码

本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性，发现多模态转换器VisualBERT在编码上远优于之前提出的单模态CNN、图像转换器以及其他先前提出的多模态模型，这表明视觉语言模型的优越性，产生了人们是否在被动地查看图像时，视觉区域的响应是否受到语言处理的影响的问题。

Apr, 2022

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合fMRI神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉-语言潜在空间编码fMRI信号来解决数据稀缺的问题。

Sep, 2022

多模学习脑视语特征解码视觉神经表示

本文提出了一种名为BraVL的神经解码通用方法，采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模，以提高对新颖视觉类别的准确性，进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越，进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。

Oct, 2022

脑部字幕：将人脑活动解码成图像和文本

该研究采用fMRI技术和图像生成模型，提出了一种基于大脑神经活动解码为图像文字的方法，该方法包括图像重建流程和基于深度图的图像生成模型，实验证明其在神经科学方面具有广泛应用的潜力。

May, 2023

Second Sight: 使用脑部优化的编码模型将图像分布与人类脑活动对齐

提出了一种名为Second Sight的新型重建过程，该过程通过迭代方式显式最大化挑战任何目标图像所引起的脑活动模式的体素编码模型的预测与脑活动模式之间的对齐，从而在语义内容和低级图像细节方面不断改进损伤图像，解决了多种输入图像问题。

Jun, 2023

MindDiffuser：使用语义和结构扩散从人类大脑活动进行受控图像重建

我们提出了一种名为MindDiffuser的两阶段图像重建模型，通过使用fMRI进行前向估计和反向传播来实现想定图像的语义和结构信息的精确对齐，实验结果表明该模型在自然场景数据集上超过了现有的最先进模型，并且与相应的大脑反应呈现的多模态特征解释力一致，从而证实其神经生物学的合理性。

Aug, 2023

MindGPT：使用非侵入性脑记录解读所见

通过fMRI信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器MindGPT，该模型建立在具有交叉注意机制的视觉引导神经编码器上，并通过大型语言模型GPT的协同使用来将潜在的神经表示引导到期望的语义方向，从而使MindGPT的神经表示具有可解释性，可以用来评估视觉属性对语义的贡献。实验证明生成的词序列真实地代表了感知刺激中传达的视觉信息（具有关键细节），结果还表明，对于语言解码任务，高级视觉皮层（HVC）比低级视觉皮层（LVC）更具语义信息，仅使用HVC就可以恢复大部分语义信息。MindGPT模型的代码将公开发布在此https URL上。

Sep, 2023

MindEye2: 共享主体模型实现 1 小时数据的 fMRI-to-Image

使用仅1小时的fMRI训练数据展示了高质量的知觉重建，我们通过在7个受试者上进行预训练并在新受试者上进行微调的方法，通过功能对齐和CLIP图像空间的映射，实现了对知觉的准确重建。

Mar, 2024

BrainChat：使用视觉-语言预训练模型从脑功能磁共振成像解码语义信息

使用CoCa模型，本文提出了一种简单而有效的生成框架BrainChat，旨在从脑活动中快速实现语义信息解码任务，包括fMRI问题回答和fMRI字幕生成，通过编码稀疏的fMRI数据，利用对比损失将fMRI、图像和文本嵌入对齐，然后通过交叉注意层将fMRI嵌入映射到生成的脑解码器，以最小化字幕损失的方式以回归的方式生成有关fMRI的文本内容。成功地超过了现有状态-of-the-art方法在fMRI字幕生成任务中，并首次实现了fMRI问题回答。此外，BrainChat在没有图像数据的情况下仍可以实现高性能，更适用于现实世界的数据有限场景。

Jun, 2024

LLM4Brain：为大脑视频理解训练的大语言模型

本研究解决了从大脑信号解码视觉语义信息的挑战，包括信噪比低、数据有限及跨个体变异等问题。论文提出了一种基于大型语言模型的创新方法，通过对功能性核磁共振信号进行微调，将大脑反应转化为与视频刺激对齐的潜在表示，并映射至文本模态。最终结果表明，该方法在定量语义指标上表现良好，与真实信息高度相似，具有重要的潜在影响。

Sep, 2024