CVPRJun, 2022

MLP-3D:一种带有分组时间混合的类 MLP 3D 架构

TL;DR本文使用 MLP-3D 网络结构实现了基于 token-mixing MLP 和 time mixing 的时序模型,并通过多种不同的 grouping 策略对 GTM 进行了改进,在不使用卷积或 self-attention 机制的情况下,在 Something-Something V2 和 Kinetics-400 数据集上分别实现了 68.5%/ 81.4%的 top-1 准确率,性能与 3D CNNs 和 video transformers 不相上下。