一分钱之价（视觉）：自监督重建自然电影的脑活动

Jun, 2022

一分钱之价（视觉）：自监督重建自然电影的脑活动

A Penny for Your (visual) Thoughts: Self-Supervised Reconstruction of Natural Movies from Brain Activity

Ganit Kupershmidt, Roman Beliy, Guy Gaziv, Michal Irani

TL;DR本文研究自我监督方法来重建 fMRI 记录的自然视频，通过编码和解码自然视频的循环一致性以及利用大量外部自然视频，在提高适用的训练数据、引入视频先验以及保持时序一致性等方面取得了重大突破，相比于传统的只依靠有限受监督数据的方法，本文所提出的方法在性能上有了显著的提升。同时，作者还提出了一种简单的针对自然视频的时间先验，进一步提高了视频帧率。

Abstract

Reconstructing natural videos from fMRI brain recordings is very challenging, for two main reasons: (i) As fMRI data acquisition is difficult, we only have a limited amount of supervised samples, which is not enough to cover the huge space of natural videos; and (ii) The temporal resolution of →

fmri recordings natural video reconstruction self-supervised approach temporal coherence high frame-rate

发现论文，激发创造

从体素到像素再到体素：自监督法在基于 fMRI 的自然图像重建中的应用

本文提出了一种新颖的方法，利用 Encoder-Decoder 和 Decoder-Encoder 网络结构，通过有标签数据和未标签的数据来训练 fMRI 到图片的重建网络，其中自监督机制使得网络可以适应统计数据的缺乏和输入数据的变化

Jul, 2019

电影式大脑景观：基于脑活动的高质量视频重建

通过对连续 fMRI 数据的渐进式脑掩蔽建模、多模式对比学习以及深度网络训练等方案，提出了 Mind-Video 模型，能够以对抗性指导的方式从连续谷氨酸受体成像数据中高质量地重建任意帧率的视频，并在语义分类和结构相似性指数等方面优于先前的最先进水平 45％，同时还具有生物可行性和可解释性。

May, 2023

思维动画化：从缓慢的脑活动中解耦动态自然视觉重建

提出了一种名为 Mind-Animator 的两阶段模型，通过脑活动数据可以重构人类动态视觉，并在三个公共数据集上达到最先进的性能，通过特征解耦和融合，证实了重构视频的神经学解释性。

May, 2024

NeuroCine: 从人脑活动解码生动视频序列

在理解人类大脑视觉处理的复杂性中，从大脑活动中重建动态视觉体验成为一项具有挑战性且引人入胜的努力。本研究引入了 NeuroCine，一种新颖的双相框架，针对解码 fMRI 数据中固有的挑战，如噪声、空间冗余和时间滞后。该框架通过对比学习 fMRI 表示进行空间遮蔽和时间插值增强，以及依赖性先验噪声增强的扩散模型用于视频生成。在一个公开可用的 fMRI 数据集上进行了测试，我们的方法显示出有希望的结果，通过 SSIM 测量，在解码三个主题的 fMRI 数据集中，与先前最先进的模型相比，分别提高了 20.97％，31.00％和 12.30％。此外，我们的注意力分析表明该模型与现有的大脑结构和功能相吻合，表明其具有生物学合理性和可解释性。

Feb, 2024

从脑活动中解码高分辨率图像的对比、关注和扩散

介绍了一个两阶段的 fMRI 表示学习框架，通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪，并在第二阶段利用图像自动编码器的指导来调整特征学习者，以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激，实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性，50 种不同目标的情境下，top-1 语义分类的准确率比先前最先进的方法提高了 39.34％。

May, 2023

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。

Sep, 2022

基于 3T fMRI 数据和无监督学习的视网膜视觉图像重建

通过无监督生成对抗网络 (GAN) 结合 7T 和 3T 两个不同的 fMRI 数据集，本文提出了一种新的框架来生成改进的 3T fMRI 数据，克服高质量 7-Tesla 数据的稀缺性和 3-Tesla 实验中简短和低质量扫描的挑战，证明了该方法在生成优质输入视觉图像方面相对于在单个主题上进行训练和测试的数据密集型方法的能力。

Apr, 2024

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

视频时序建模的双向多速率重建

本研究提出一种基于未整理视频的无监督时间建模方法，使用多速率视觉循环模型对视频的每一帧进行编码，通过过去和未来相邻的视频片段作为时间上下文，重构两个时间转换以反映不同视图中的时间信息。将该方法应用于复杂事件检测和视频字幕生成中，其在 MEDTest-13 数据集上相对提高了 10.4％，在 YouTube2Text 数据集中的表现达到了最佳水平。

Nov, 2016

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020