本文研究了如何通过结合fMRI神经活动信号、图像和图像语义描述来重建复杂的图像场景,使用深度学习模型,并且通过采用预先训练的视觉-语言潜在空间编码fMRI信号来解决数据稀缺的问题。
Sep, 2022
本文提出了一种名为MindDiffuser的两阶段图像重构模型,利用了稳定扩散技术,成功地同时实现了语义和结构信息的重构,并在自然场景数据集方面的重建结果超过了当前最先进模型。
Mar, 2023
本文提出了一种名为MindEye的新型fMRI到图像转换方法,通过对比学习和扩散优先使用两个并行子模块来实现图像的检索和重建,将fMRI脑活动映射到高维多模态潜在空间,使用生成模型从该潜在空间接受嵌入以进行图片重建和精确检索。通过实验证明MindEye在重建和检索任务方面具有最先进的性能。
May, 2023
提出了一种名为Second Sight的新型重建过程,该过程通过迭代方式显式最大化挑战任何目标图像所引起的脑活动模式的体素编码模型的预测与脑活动模式之间的对齐,从而在语义内容和低级图像细节方面不断改进损伤图像,解决了多种输入图像问题。
Jun, 2023
我们提出了一种名为MindDiffuser的两阶段图像重建模型,通过使用fMRI进行前向估计和反向传播来实现想定图像的语义和结构信息的精确对齐,实验结果表明该模型在自然场景数据集上超过了现有的最先进模型,并且与相应的大脑反应呈现的多模态特征解释力一致,从而证实其神经生物学的合理性。
Aug, 2023
我们提出了一种新的方法来解决功能磁共振成像(fMRI)数据稀缺和噪声干扰脑解码模型性能的问题,通过浅层主体特定适配器将跨学科的fMRI数据映射到统一的表示中,然后使用共享的深层解码模型将跨学科特征解码为目标特征空间,利用视觉和文本监督进行多模态脑解码的训练,实验证明了我们模型在所有科目中的鲁棒神经表示学习,并且将高级和低级信息相结合可以改善重建度量。
Mar, 2024
利用1小时的fMRI训练数据,结合人类视觉系统中的视觉指纹和一种新颖的fMRI-to-text对齐方法,我们提出了MindTuner用于跨主体视觉解码,实现了高质量和丰富语义的重建,结果表明MindTuner在自然场景数据集(NSD)上的表现优于最先进的跨主体视觉解码模型。
Apr, 2024
提出了一种名为Mind-Animator的两阶段模型,通过脑活动数据可以重构人类动态视觉,并在三个公共数据集上达到最先进的性能,通过特征解耦和融合,证实了重构视频的神经学解释性。
May, 2024
本研究针对从功能性磁共振成像(fMRI)数据重建3D视觉图像的需求,提出fMRI-3D数据集,包含来自15名参与者的4768个3D对象。通过引入MinD-3D框架,本研究不仅提升了重建效果的语义和空间准确性,还为理解人脑如何处理3D视觉信息提供了新的视角。
Sep, 2024
本研究针对fMRI到图像重建任务中小物体细节缺失和语义模糊的问题,提出了一种基于多模态引导的重建框架Brain-Streams。该框架结合视觉和语义信息,利用现代生成模型(如潜在扩散模型)进行精确的图像重建,验证结果显示出优越的重建能力和应用潜力。