Jan, 2024

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

TL;DR在这篇论文中,我们提出了 HaltingVT,一种高效的视频转换器,通过自适应地删除多余的视频补丁令牌,显著降低了计算成本。此外,我们设计了一种有效的运动损失函数,在训练期间进一步鼓励 HaltingVT 专注于视频中的关键动作相关信息。通过在 Mini-Kinetics 数据集上的实验,我们在极低的 9.9 GFLOPs 下达到了 67.2% 的 top-1 准确率。