Jun, 2024

多尺度时差变换器用于视频文本检索

TL;DR在视频文本检索领域,我们提出了一种名为 MSTDT 的变种 Transformer,主要解决了传统 Transformer 对于捕捉本地时间信息能力有限的问题,并通过多尺度时间 Transformer 来提取帧差异特征和整合差异和帧特征来更好地建模动态信息,实现了与 CLIP 等主干网络的全新最先进结果。