May, 2024

BIMM: 基于脑神经灵感的视频表示学习

TL;DR我们提出了脑启发的 Masked 建模 (BIMM) 框架,通过学习图像和视频表示,使用视觉变换器 (ViT) 作为骨干,并在训练过程中采用部分参数共享策略,在模拟人脑的视觉通路中取得了优越的性能。