TSM: 高效视频理解的时间位移模块
提出了一个高效且高性能的 Temporal Shift Module (TSM),它能够在进行时间建模时既保证计算效率又保持精度,并且在大规模训练方面具有比 3D 网络更高的可扩展性。
Sep, 2021
本文介绍了一种用于视频目标检测的空间 - 时间记忆网络,其核心是一种新颖的空间 - 时间记忆模块,用于模拟长期的时间外观和动态运动,并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果,并且文章的实验表明了不同设计选择的贡献。
Dec, 2017
本文提出一种 Temporal Patch Shift(TPS)方法,用于在 transformer 模型中对视频进行高效的三维自注意力建模,可插入到现有的二维 transformer 模型中以增强时空特征学习,该方法在计算和内存成本上比现有方法更加高效,同时在 Something-something V1&V2、Diving-48 和 Kinetics400 上取得了与最先进水平相当的性能。
Jul, 2022
提出了一种基于 Token Shift Module 的 Transformer 操作,用于学习 3D 视频表示,以在消除卷积神经网络的同时具有计算效率。实验证明,该方法比现有的卷积方法取得更好的结果。
Aug, 2021
本文中提出使用空间门控机制来处理 3D 核的空间 - 时间分解,实现 Gate-Shift Module (GSM) 用于视频动作识别,结果在 Something Something-V1 和 Diving48 数据集上达到了最新的最优结果,而且在 EPIC-Kitchens 数据集上,获得了竞争性结果,具有远低于模型复杂度的优点。
Dec, 2019
本研究通过设计渐进式增强模块(PEM)和创建时间多样性损失(TD Loss)两种方法,以解决将 2D CNN 应用于视频分析中出现的重复和冗余信息利用问题,并在 Something-Something V1 和 V2 等基准时间推理数据集上取得 2.4%和 1.3%的性能改进,同时在大规模数据集 Kinetics 上也 witness 了超过基于 2D-CNN 的现有技术的性能提升。
Jul, 2020
本文介绍了一种新颖的 Token Shift and Selection Network (TS2-Net),其中 Token Shift 模块在时间上移动整个 Token 特征以捕捉场景的微小变化,而 Token Selection 模块选择对局部空间语义贡献最大的 Token。在各项主要 text-video 检索基准上,实验结果表明 TS2-Net 取得了最新的最优性能。
Jul, 2022
本文提出了一个基于 2D 框架的 STM 网络,利用 STM 块替换 ResNet 架构中的残差块,同时编码时空特征和动作特征,实现了高效的视频动作识别。实验证明,提出的方法在数据集 Something-Something v1&v2、Jester、Kinetics-400、UCF-101 和 HMDB-51 上性能优于其他现有方法。
Aug, 2019
该研究提出了一种新的时间自适应模块(TAM),可生成基于其自身特征图的视频特定时间核,采用独特的两级自适应建模方案,通过将动态核解耦为位置敏感重要性地图和位置不变聚合权重,从本地时间窗口中学习重要性地图以捕捉短期信息,从全局视图中生成聚合权重,并成功应用于 TANet 架构中,从而实现卓越的性能表现。
May, 2020