Aug, 2023

高效视频理解的时间自适应模型

TL;DR通过根据局部和全局时间上下文校准卷积权重,将时空卷积赋予时间建模能力,从而为视频理解提供效率更高、模型容量更大的TAdaConv,并通过TAdaConvNeXtV2和TAdaFormer在各种视频理解评估中取得与最先进的基于卷积和Transformer的模型相竞争的实证结果。