CVPRMar, 2024

vid-TLDR: 轻量级视频 Transformer 的无训练自由标记合并

TL;DR提出了轻量级视频 Transformer(vid-TLDR)的训练免费的令牌合并策略,通过合并背景令牌并通过关注图捕捉显著区域来提高视频 Transformer 的效率。实验证明,vid-TLDR 显着减轻了视频 Transformer 的计算复杂度,并且在与基准模型相比的性能上取得了有竞争力的结果。