一分钱之价(视觉):自监督重建自然电影的脑活动
本文提出了一种新颖的方法,利用 Encoder-Decoder 和 Decoder-Encoder 网络结构,通过有标签数据和未标签的数据来训练 fMRI 到图片的重建网络,其中自监督机制使得网络可以适应统计数据的缺乏和输入数据的变化
Jul, 2019
通过对连续 fMRI 数据的渐进式脑掩蔽建模、多模式对比学习以及深度网络训练等方案,提出了 Mind-Video 模型,能够以对抗性指导的方式从连续谷氨酸受体成像数据中高质量地重建任意帧率的视频,并在语义分类和结构相似性指数等方面优于先前的最先进水平 45%,同时还具有生物可行性和可解释性。
May, 2023
提出了一种名为 Mind-Animator 的两阶段模型,通过脑活动数据可以重构人类动态视觉,并在三个公共数据集上达到最先进的性能,通过特征解耦和融合,证实了重构视频的神经学解释性。
May, 2024
在理解人类大脑视觉处理的复杂性中,从大脑活动中重建动态视觉体验成为一项具有挑战性且引人入胜的努力。本研究引入了 NeuroCine,一种新颖的双相框架,针对解码 fMRI 数据中固有的挑战,如噪声、空间冗余和时间滞后。该框架通过对比学习 fMRI 表示进行空间遮蔽和时间插值增强,以及依赖性先验噪声增强的扩散模型用于视频生成。在一个公开可用的 fMRI 数据集上进行了测试,我们的方法显示出有希望的结果,通过 SSIM 测量,在解码三个主题的 fMRI 数据集中,与先前最先进的模型相比,分别提高了 20.97%,31.00%和 12.30%。此外,我们的注意力分析表明该模型与现有的大脑结构和功能相吻合,表明其具有生物学合理性和可解释性。
Feb, 2024
介绍了一个两阶段的 fMRI 表示学习框架,通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪,并在第二阶段利用图像自动编码器的指导来调整特征学习者,以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激,实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性,50 种不同目标的情境下,top-1 语义分类的准确率比先前最先进的方法提高了 39.34%。
May, 2023
本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景,使用深度学习模型,并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。
Sep, 2022
通过无监督生成对抗网络 (GAN) 结合 7T 和 3T 两个不同的 fMRI 数据集,本文提出了一种新的框架来生成改进的 3T fMRI 数据,克服高质量 7-Tesla 数据的稀缺性和 3-Tesla 实验中简短和低质量扫描的挑战,证明了该方法在生成优质输入视觉图像方面相对于在单个主题上进行训练和测试的数据密集型方法的能力。
Apr, 2024
本文提出了一种面向视频任务的基于 Transformer 的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
本研究提出一种基于未整理视频的无监督时间建模方法,使用多速率视觉循环模型对视频的每一帧进行编码,通过过去和未来相邻的视频片段作为时间上下文,重构两个时间转换以反映不同视图中的时间信息。将该方法应用于复杂事件检测和视频字幕生成中,其在 MEDTest-13 数据集上相对提高了 10.4%,在 YouTube2Text 数据集中的表现达到了最佳水平。
Nov, 2016
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020