使用 GPT 嵌入式技术揭示 FMRI 脑语言

Jun, 2023

使用 GPT 嵌入式技术揭示 FMRI 脑语言

DreamCatcher: Revealing the Language of the Brain with fMRI using GPT Embedding

Subhrasankar Chatterjee, Debasis Samanta

TL;DR通过 fMRI-based captioning 获取神经的相关性，这有助于认识视觉感知的神经机制，人机交互以及加强学习和训练过程。

Abstract

The human brain possesses remarkable abilities in visual processing, including image recognition and scene summarization. Efforts have been made to understand the cognitive capacities of the visual brain, but a comprehensive understanding of the underlying mechanisms still needs to be

visual processing cognitive neuroscience fmri neural mechanisms captioning

发现论文，激发创造

脑部字幕：将人脑活动解码成图像和文本

该研究采用 fMRI 技术和图像生成模型，提出了一种基于大脑神经活动解码为图像文字的方法，该方法包括图像重建流程和基于深度图的图像生成模型，实验证明其在神经科学方面具有广泛应用的潜力。

May, 2023

BrainChat：使用视觉 - 语言预训练模型从脑功能磁共振成像解码语义信息

使用 CoCa 模型，本文提出了一种简单而有效的生成框架 BrainChat，旨在从脑活动中快速实现语义信息解码任务，包括 fMRI 问题回答和 fMRI 字幕生成，通过编码稀疏的 fMRI 数据，利用对比损失将 fMRI、图像和文本嵌入对齐，然后通过交叉注意层将 fMRI 嵌入映射到生成的脑解码器，以最小化字幕损失的方式以回归的方式生成有关 fMRI 的文本内容。成功地超过了现有状态 - of-the-art 方法在 fMRI 字幕生成任务中，并首次实现了 fMRI 问题回答。此外，BrainChat 在没有图像数据的情况下仍可以实现高性能，更适用于现实世界的数据有限场景。

Jun, 2024

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。

Sep, 2022

DREAM：从逆向人类视觉系统实现视觉解码

DREAM 是一种基于人类视觉系统的基础知识的 fMRI 到图像的重构方法，通过模拟人类感知视觉世界的分层和并行特性来构建逆向路径，利用专门的路径从 fMRI 数据中提取语义、颜色和深度线索。实验证明，该方法在外观、结构和语义的一致性方面优于当前最先进的模型。

Oct, 2023

脑解码：朝着实时重建视觉感知迈进

通过基于高时间分辨率的 MEG 测量脑活动，利用生成型和基础型人工智能系统解码大脑活动，特别是通过功能性磁共振成像 (fMRI) 解码视觉感知，从而在实时应用方面取得了重大进展。

Oct, 2023

MindGPT：使用非侵入性脑记录解读所见

通过 fMRI 信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器 MindGPT，该模型建立在具有交叉注意机制的视觉引导神经编码器上，并通过大型语言模型 GPT 的协同使用来将潜在的神经表示引导到期望的语义方向，从而使 MindGPT 的神经表示具有可解释性，可以用来评估视觉属性对语义的贡献。实验证明生成的词序列真实地代表了感知刺激中传达的视觉信息（具有关键细节），结果还表明，对于语言解码任务，高级视觉皮层（HVC）比低级视觉皮层（LVC）更具语义信息，仅使用 HVC 就可以恢复大部分语义信息。MindGPT 模型的代码将公开发布在此 https URL 上。

Sep, 2023

脑形式化：将 MRI 脑功能建模到机器视觉中

通过引入新颖的基于 Transformer 的 Brainformer 方法，分析人类感知系统中 fMRI 模式，并将其作为监督机制应用于机器视觉模型，通过实验证明，在各种图像识别任务中，利用 fMRI 信息可以实现与当前最先进方法相比的潜在结果。

Nov, 2023

从脑活动中解码高分辨率图像的对比、关注和扩散

介绍了一个两阶段的 fMRI 表示学习框架，通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪，并在第二阶段利用图像自动编码器的指导来调整特征学习者，以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激，实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性，50 种不同目标的情境下，top-1 语义分类的准确率比先前最先进的方法提高了 39.34％。

May, 2023

MindSemantix: 用大脑 - 语言模型解读大脑视觉经历

通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了 MindSemantix，这是一种新颖的多模态框架，使语言模型能够理解脑活动中唤起的语义内容，并形成无缝连接的端到端脑 - 语言模型。

May, 2024

跨视觉数据集中静态图像的 BOLD fMRI 时间序列编码：人类视觉的初步研究

使用功能性磁共振成像（fMRI）对不同图像数据集进行复杂性特定的图像分类，研究神经活动与视觉相关的差异，发现并比较了不同网络模型在多类别分类中的性能，建立了研究人类大脑对不同复杂度图像反应的基准。

Sep, 2023