思维动画化：从缓慢的脑活动中解耦动态自然视觉重建

May, 2024

思维动画化：从缓慢的脑活动中解耦动态自然视觉重建

Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity

Yizhuo Lu, Changde Du, Chong Wang, Xuanliu Zhu, Liuyun Jiang...

TL;DR提出了一种名为 Mind-Animator 的两阶段模型，通过脑活动数据可以重构人类动态视觉，并在三个公共数据集上达到最先进的性能，通过特征解耦和融合，证实了重构视频的神经学解释性。

Abstract

reconstructing human dynamic vision from brain activity is a challenging task with great scientific significance. The difficulty stems from two primary issues: (1) vision-processing mechanisms in the brain are hi

reconstructing human dynamic vision brain activity fmri mind-animator neurobiological interpretability

发现论文，激发创造

电影式大脑景观：基于脑活动的高质量视频重建

通过对连续 fMRI 数据的渐进式脑掩蔽建模、多模式对比学习以及深度网络训练等方案，提出了 Mind-Video 模型，能够以对抗性指导的方式从连续谷氨酸受体成像数据中高质量地重建任意帧率的视频，并在语义分类和结构相似性指数等方面优于先前的最先进水平 45％，同时还具有生物可行性和可解释性。

May, 2023

NeuroCine: 从人脑活动解码生动视频序列

在理解人类大脑视觉处理的复杂性中，从大脑活动中重建动态视觉体验成为一项具有挑战性且引人入胜的努力。本研究引入了 NeuroCine，一种新颖的双相框架，针对解码 fMRI 数据中固有的挑战，如噪声、空间冗余和时间滞后。该框架通过对比学习 fMRI 表示进行空间遮蔽和时间插值增强，以及依赖性先验噪声增强的扩散模型用于视频生成。在一个公开可用的 fMRI 数据集上进行了测试，我们的方法显示出有希望的结果，通过 SSIM 测量，在解码三个主题的 fMRI 数据集中，与先前最先进的模型相比，分别提高了 20.97％，31.00％和 12.30％。此外，我们的注意力分析表明该模型与现有的大脑结构和功能相吻合，表明其具有生物学合理性和可解释性。

Feb, 2024

一分钱之价（视觉）：自监督重建自然电影的脑活动

本文研究自我监督方法来重建 fMRI 记录的自然视频，通过编码和解码自然视频的循环一致性以及利用大量外部自然视频，在提高适用的训练数据、引入视频先验以及保持时序一致性等方面取得了重大突破，相比于传统的只依靠有限受监督数据的方法，本文所提出的方法在性能上有了显著的提升。同时，作者还提出了一种简单的针对自然视频的时间先验，进一步提高了视频帧率。

Jun, 2022

动态视觉刺激的神经表征

人类通过不断变化的视觉刺激来感知世界，其中场景可以移动、改变外观和距离。这篇研究论文针对动态视觉刺激的大多数研究聚焦于静态刺激，限制了对人类视觉的调查。与之相反，动态视觉刺激提供了更符合生态有效性的方法，但由于时空信息的相互作用，使得解耦稳定图像特征和运动表征的困难增加。为了解决这个问题，在动态输入情况下，我们明确地解耦了人脑中静态图像表征和运动表征的建模。三个结果证明了这个方法的可行性。首先，我们展示了视觉运动信息（如光流）可以从 fMRI 测得的脑活动中预测（或解码）出来。其次，我们展示了可以使用这个预测运动来使用基于运动条件的视频扩散模型（其中运动由 fMRI 脑活动驱动）逼真地使静态图像动画化。第三，我们展示了在相反方向上的预测：现有的视频编码器可以进行微调，从视频图像中预测 fMRI 脑活动，并且相较于图像编码器能更有效地进行预测。这项基础工作为解释人类大脑如何处理动态视觉信息提供了一种新颖且可扩展的框架。

Jun, 2024

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。

Sep, 2022

MindDiffuser：基于语义和结构扩散的人脑活动控制图像重建

本文提出了一种名为 MindDiffuser 的两阶段图像重构模型，利用了稳定扩散技术，成功地同时实现了语义和结构信息的重构，并在自然场景数据集方面的重建结果超过了当前最先进模型。

Mar, 2023

从脑活动中解码高分辨率图像的对比、关注和扩散

介绍了一个两阶段的 fMRI 表示学习框架，通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪，并在第二阶段利用图像自动编码器的指导来调整特征学习者，以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激，实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性，50 种不同目标的情境下，top-1 语义分类的准确率比先前最先进的方法提高了 39.34％。

May, 2023

MinD-3D: 人类大脑高质量三维物体重建

从功能性磁共振成像（fMRI）信号中重建 3D 视觉，引入了 Recon3DMind 任务；使用 360 度全景视频的 fMRI-Shape 数据集支持这一任务；提出了 MinD-3D 三阶段框架，从 fMRI 信号中解码和重建大脑的 3D 视觉信息；通过有效提取与 fMRI 信号中的视觉兴趣区域高度相关的特征，实现了对高语义相关性和空间相似性的 3D 对象的重建，并深入了解人脑的 3D 视觉处理能力。

Dec, 2023

脑力到图像：将大脑的视觉心理想象从 fMRI 投影出来

通过 fMRI 数据和修改的 fMRI-to-image 模型，我们首次在记忆和纯想象两种模式下，从视觉想象中重建图像的可行性，从而迈出了直接重建视觉想象的技术的重要一步。

Apr, 2024

MindDiffuser：使用语义和结构扩散从人类大脑活动进行受控图像重建

我们提出了一种名为 MindDiffuser 的两阶段图像重建模型，通过使用 fMRI 进行前向估计和反向传播来实现想定图像的语义和结构信息的精确对齐，实验结果表明该模型在自然场景数据集上超过了现有的最先进模型，并且与相应的大脑反应呈现的多模态特征解释力一致，从而证实其神经生物学的合理性。

Aug, 2023