使用 fMRI 提示的 LLM 进行开放式词汇听觉神经解码
通过 fMRI 信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器 MindGPT,该模型建立在具有交叉注意机制的视觉引导神经编码器上,并通过大型语言模型 GPT 的协同使用来将潜在的神经表示引导到期望的语义方向,从而使 MindGPT 的神经表示具有可解释性,可以用来评估视觉属性对语义的贡献。实验证明生成的词序列真实地代表了感知刺激中传达的视觉信息(具有关键细节),结果还表明,对于语言解码任务,高级视觉皮层(HVC)比低级视觉皮层(LVC)更具语义信息,仅使用 HVC 就可以恢复大部分语义信息。MindGPT 模型的代码将公开发布在此 https URL 上。
Sep, 2023
使用预训练语言模型对无创脑机接口(BCI)通过脑电图(EEG)信号进行解码的潜力进行了研究,提出了一个具有先进表示学习方法的无创脑电记录的端到端深度学习框架,并使用新的评估指标验证了该框架在解码效果方面的优越性。
Nov, 2023
提出了一种用于神经解码和脑预测的新模型 extsc {PredFT},它结合了主要解码网络和用于预测编码的辅助网络,并通过交叉注意力将脑预测编码表示融入主要解码网络以促进语言模型的生成过程。在最大 BLEU-1 分数为 27.8% 的自然语言理解 fMRI 数据集 Narratives 上进行了实验,取得了当前最先进的解码性能。
May, 2024
在该论文中,我们首次探索了基于跨注意力的 “whisper” 模型,通过 MEG 信号直接生成文本,而无需教师强制,实现了令人印象深刻的 60.30 和 52.89 的 BLEU-1 得分,该论文还对有关神经解码任务的语音解码形成进行了全面的回顾。
Mar, 2024
使用 CoCa 模型,本文提出了一种简单而有效的生成框架 BrainChat,旨在从脑活动中快速实现语义信息解码任务,包括 fMRI 问题回答和 fMRI 字幕生成,通过编码稀疏的 fMRI 数据,利用对比损失将 fMRI、图像和文本嵌入对齐,然后通过交叉注意层将 fMRI 嵌入映射到生成的脑解码器,以最小化字幕损失的方式以回归的方式生成有关 fMRI 的文本内容。成功地超过了现有状态 - of-the-art 方法在 fMRI 字幕生成任务中,并首次实现了 fMRI 问题回答。此外,BrainChat 在没有图像数据的情况下仍可以实现高性能,更适用于现实世界的数据有限场景。
Jun, 2024
本文提出了一种跨模态的大脑解码模型 BrainCLIP,通过将图像和文本监督在语义空间中相结合,将 fMRI 模式转换为 CLIP 嵌入空间,实现了自然图像的高级特征还原和语义解码。
Feb, 2023
提出了一种新的多模态训练范式,用于编码视觉皮层中的 fMRI 活动。使用预训练的 LLM 和对比损失函数完成图像和文本信息的对齐,提高了视觉编码模型的性能。
Jan, 2024
本文介绍了一种对开放词汇的象限脑电图 (EEG)- 到 - 文本序列到序列解码和零样本句子情感分类的方法,并借助预训练语言模型 (例如 BART) 建立一个新的框架,该模型能够处理来自不同受试者和来源的数据,并证明了该模型可以一旦足够的数据可用,有望成为高性能的开放词汇脑到文本系统。
Dec, 2021
使用图提示学习模型进行神经系统疾病的诊断,通过学习 GPT-4 获取相关疾病概念,计算概念与图像区块的语义相似度,并减少不相关区块的权重,同时利用图卷积网络层提取图的结构信息,以提升预训练模型在神经系统疾病诊断上的性能。
Dec, 2023
通过对大量受试者进行对比学习,使用自我监督方法设计的神经网络可以从无创脑电图数据中有效识别自由自然语言,为实现从脑电图中实时解码自然语音处理提供了有前途的途径。
Aug, 2022