Apr, 2023

基于可学习对齐的隐式时间建模视频识别

TL;DR本文提出了一种新颖的隐式学习对齐(ILA)方法,可在视频中实现高效的空间自注意力,避免了昂贵或不充足的时间自注意力。 在 Kinetics-400 上,提出的 ILA 与 Swin-L 和 ViViT-H 相比,仅使用更少的 FLOPs 即可实现 88.7%的 top-1 准确率。