具有时间平滑 Transformer 的实时在线视频检测

ECCVSep, 2022

具有时间平滑 Transformer 的实时在线视频检测

Real-time Online Video Detection with Temporal Smoothing Transformers

Yue Zhao, Philipp Krähenbühl

TL;DR通过在视频变压器的跨关注点中引入核的角度并应用两种时间平滑核，重新定义流式视频识别模型，拥有常数时间更新每帧的优势，在 THUMOS'14 和 EPIC-Kitchen-100 数据集上取得了最新的成果。

Abstract

streaming video recognition reasons about objects and their actions in every frame of a video. A good streaming recognition model captures both long-term dynamics and short-term changes of video. Unfortunately, in most existing methods, the computational complexity grows linearly or qu

streaming video recognition video transformer temporal smoothing kernel action detection action anticipation

发现论文，激发创造

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

视频 Transformer 中的轨迹注意力

我们提出了一种新的视频转换器的降压块 - 轨迹关注，并提出了一种解决计算和存储在输入大小上的二次依赖性的新方法，其中特别重要的是对于高分辨率或长视频。将这些想法应用于视频行动识别的具体任务中，并在 Kinetics，Something-Something V2 和 Epic-Kitchens 数据集上取得了最先进的结果。

Jun, 2021

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

在线动作检测的时序循环网络

本文提出了一种新颖的框架 Temporal Recurrent Network (TRN) 来模拟视频帧的时间上下文，在线执行行动检测并预测即将发生的行动，实现了累积历史证据和预测未来信息相结合的在线识别方式，并在 HDD、TVSeries 和 THUMOS'14 三个数据集上进行评估，表明 TRN 的性能显著优于现有技术。

Nov, 2018

时空自注意力建模与时间补丁位移在动作识别中的应用

本文提出一种 Temporal Patch Shift（TPS）方法，用于在 transformer 模型中对视频进行高效的三维自注意力建模，可插入到现有的二维 transformer 模型中以增强时空特征学习，该方法在计算和内存成本上比现有方法更加高效，同时在 Something-something V1＆V2、Diving-48 和 Kinetics400 上取得了与最先进水平相当的性能。

Jul, 2022

一种高效的时空金字塔变换器用于动作检测

本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型，通过采用局部窗口注意力和全局注意力模块，实现了对长视频片段中动作的高效检测和定位，与目前流行的基于 Transformer 的模型相比，提高了精度并减少了冗余计算。

Jul, 2022

在线动作检测的长短期 Transformer

提出了一种长短时 Transformer（LSTR）算法，用于在线动作检测，它采用了长短时记忆机制来建模长序列数据，其中编码器动态地利用拓展的时间窗口的历史信息，解码器专注于一个短时间窗口来建模数据的细节特征。与先前的工作相比，LSTR 提供了一种有效且高效的建模长视频的方法，其在三种标准的在线动作检测基准测试（THUMOS'14、TVSeries 和 HACS Segment）上实现了最先进的性能。

Jul, 2021

具有注意力机制 LSTM 的时间感知 SSD

本论文提出了一种基于注意机制和卷积长短时记忆（ConvLSTM）的时序单次检测器（TSSD），以实现视频中的实时在线目标检测。采用 ConvLSTM 来集成时间金字塔特征层次，并使用一个低级时序单元和一个高级单元来设计新颖的结构（LH-TU）进行多尺度特征图。关注 ConvLSTM（AC-LSTM）的创新时间分析单元被设计为时间上的背景抑制和尺度抑制，并跨时间集成具有关注注意力的特征。此外，针对时间一致性设计了联合损失和多步训练。最后，利用在线管道分析（OTA）进行识别。评估结果证明，该方法在检测和跟踪性能方面具有优势。

Mar, 2018