TSM: 高效视频理解的时间位移模块

ICCVNov, 2018

TSM: 高效视频理解的时间位移模块

TSM: Temporal Shift Module for Efficient Video Understanding

Ji Lin, Chuang Gan, Song Han

TL;DR该论文提出了一种基于 Temporal Shift Module 的 2D CNN 模型，既具有 3D CNN 的性能又保持了 2D CNN 的计算复杂度，并将该模型扩展至在线设置中，实现实时低延迟的在线视频识别和视频对象检测。该模型在 Something-Something 数据集上性能卓越，在 Jetson Nano 和 Galaxy Note8 等设备上的延迟也很低。

Abstract

The explosive growth in video streaming gives rise to challenges on performing video understanding at high accuracy and low computation cost. Conventional 2D CNNs are computationally cheap but cannot capture temporal relationships; →

video understanding 2d cnn 3d cnn temporal shift module online video recognition

发现论文，激发创造

TSM: 基于时间位移模块的边缘设备高效可扩展视频理解

提出了一个高效且高性能的 Temporal Shift Module (TSM)，它能够在进行时间建模时既保证计算效率又保持精度，并且在大规模训练方面具有比 3D 网络更高的可扩展性。

Sep, 2021

基于空间 - 时间对齐记忆的视频物体检测

本文介绍了一种用于视频目标检测的空间 - 时间记忆网络，其核心是一种新颖的空间 - 时间记忆模块，用于模拟长期的时间外观和动态运动，并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果，并且文章的实验表明了不同设计选择的贡献。

Dec, 2017

时空自注意力建模与时间补丁位移在动作识别中的应用

本文提出一种 Temporal Patch Shift（TPS）方法，用于在 transformer 模型中对视频进行高效的三维自注意力建模，可插入到现有的二维 transformer 模型中以增强时空特征学习，该方法在计算和内存成本上比现有方法更加高效，同时在 Something-something V1＆V2、Diving-48 和 Kinetics400 上取得了与最先进水平相当的性能。

Jul, 2022

视频分类的 Token Shift Transformer

提出了一种基于 Token Shift Module 的 Transformer 操作，用于学习 3D 视频表示，以在消除卷积神经网络的同时具有计算效率。实验证明，该方法比现有的卷积方法取得更好的结果。

Aug, 2021

视频动作识别的门移网络

本文中提出使用空间门控机制来处理 3D 核的空间 - 时间分解，实现 Gate-Shift Module (GSM) 用于视频动作识别，结果在 Something Something-V1 和 Diving48 数据集上达到了最新的最优结果，而且在 EPIC-Kitchens 数据集上，获得了竞争性结果，具有远低于模型复杂度的优点。

Dec, 2019

视频中的动作识别时间分段网络

该论文提出了一种称之为 “时间段网络” 的视频级框架，可以学习视频中的动作模型，并在四个具有挑战性的动作识别基准测试中实现了最新的性能。

May, 2017

动作识别的时间分离表征学习

本研究通过设计渐进式增强模块（PEM）和创建时间多样性损失（TD Loss）两种方法，以解决将 2D CNN 应用于视频分析中出现的重复和冗余信息利用问题，并在 Something-Something V1 和 V2 等基准时间推理数据集上取得 2.4％和 1.3％的性能改进，同时在大规模数据集 Kinetics 上也 witness 了超过基于 2D-CNN 的现有技术的性能提升。

Jul, 2020

TS2-Net: 文本 - 视频检索的令牌位移与选择变换器

本文介绍了一种新颖的 Token Shift and Selection Network (TS2-Net)，其中 Token Shift 模块在时间上移动整个 Token 特征以捕捉场景的微小变化，而 Token Selection 模块选择对局部空间语义贡献最大的 Token。在各项主要 text-video 检索基准上，实验结果表明 TS2-Net 取得了最新的最优性能。

Jul, 2022

STM: 时空和动作编码用于动作识别

本文提出了一个基于 2D 框架的 STM 网络，利用 STM 块替换 ResNet 架构中的残差块，同时编码时空特征和动作特征，实现了高效的视频动作识别。实验证明，提出的方法在数据集 Something-Something v1&v2、Jester、Kinetics-400、UCF-101 和 HMDB-51 上性能优于其他现有方法。

Aug, 2019

TAM：面向视频识别的时间自适应模块

该研究提出了一种新的时间自适应模块（TAM），可生成基于其自身特征图的视频特定时间核，采用独特的两级自适应建模方案，通过将动态核解耦为位置敏感重要性地图和位置不变聚合权重，从本地时间窗口中学习重要性地图以捕捉短期信息，从全局视图中生成聚合权重，并成功应用于 TANet 架构中，从而实现卓越的性能表现。

May, 2020