MindSemantix: 用大脑-语言模型解读大脑视觉经历
本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性,发现多模态转换器VisualBERT在编码上远优于之前提出的单模态CNN、图像转换器以及其他先前提出的多模态模型,这表明视觉语言模型的优越性,产生了人们是否在被动地查看图像时,视觉区域的响应是否受到语言处理的影响的问题。
Apr, 2022
本文研究了如何通过结合fMRI神经活动信号、图像和图像语义描述来重建复杂的图像场景,使用深度学习模型,并且通过采用预先训练的视觉-语言潜在空间编码fMRI信号来解决数据稀缺的问题。
Sep, 2022
本文提出了一种名为BraVL的神经解码通用方法,采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模,以提高对新颖视觉类别的准确性,进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越,进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。
Oct, 2022
该研究采用fMRI技术和图像生成模型,提出了一种基于大脑神经活动解码为图像文字的方法,该方法包括图像重建流程和基于深度图的图像生成模型,实验证明其在神经科学方面具有广泛应用的潜力。
May, 2023
提出了一种名为Second Sight的新型重建过程,该过程通过迭代方式显式最大化挑战任何目标图像所引起的脑活动模式的体素编码模型的预测与脑活动模式之间的对齐,从而在语义内容和低级图像细节方面不断改进损伤图像,解决了多种输入图像问题。
Jun, 2023
我们提出了一种名为MindDiffuser的两阶段图像重建模型,通过使用fMRI进行前向估计和反向传播来实现想定图像的语义和结构信息的精确对齐,实验结果表明该模型在自然场景数据集上超过了现有的最先进模型,并且与相应的大脑反应呈现的多模态特征解释力一致,从而证实其神经生物学的合理性。
Aug, 2023
通过fMRI信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器MindGPT,该模型建立在具有交叉注意机制的视觉引导神经编码器上,并通过大型语言模型GPT的协同使用来将潜在的神经表示引导到期望的语义方向,从而使MindGPT的神经表示具有可解释性,可以用来评估视觉属性对语义的贡献。实验证明生成的词序列真实地代表了感知刺激中传达的视觉信息(具有关键细节),结果还表明,对于语言解码任务,高级视觉皮层(HVC)比低级视觉皮层(LVC)更具语义信息,仅使用HVC就可以恢复大部分语义信息。MindGPT模型的代码将公开发布在此https URL上。
Sep, 2023
使用仅1小时的fMRI训练数据展示了高质量的知觉重建,我们通过在7个受试者上进行预训练并在新受试者上进行微调的方法,通过功能对齐和CLIP图像空间的映射,实现了对知觉的准确重建。
Mar, 2024
使用CoCa模型,本文提出了一种简单而有效的生成框架BrainChat,旨在从脑活动中快速实现语义信息解码任务,包括fMRI问题回答和fMRI字幕生成,通过编码稀疏的fMRI数据,利用对比损失将fMRI、图像和文本嵌入对齐,然后通过交叉注意层将fMRI嵌入映射到生成的脑解码器,以最小化字幕损失的方式以回归的方式生成有关fMRI的文本内容。成功地超过了现有状态-of-the-art方法在fMRI字幕生成任务中,并首次实现了fMRI问题回答。此外,BrainChat在没有图像数据的情况下仍可以实现高性能,更适用于现实世界的数据有限场景。
Jun, 2024
本研究解决了从大脑信号解码视觉语义信息的挑战,包括信噪比低、数据有限及跨个体变异等问题。论文提出了一种基于大型语言模型的创新方法,通过对功能性核磁共振信号进行微调,将大脑反应转化为与视频刺激对齐的潜在表示,并映射至文本模态。最终结果表明,该方法在定量语义指标上表现良好,与真实信息高度相似,具有重要的潜在影响。
Sep, 2024