具有时间平滑 Transformer 的实时在线视频检测
本研究提出了一个深度学习框架,可实时进行多个时空动作的本地化、分类和早期预测,通过实时的 SSD 卷积神经网络进行回归和分类检测,再通过一个高效的在线算法构建和标记动作管道以进行实时分析,对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果,即使与顶级离线竞争对手相比,我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测,本文是首个实现此功能的实时系统。
Nov, 2016
该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.
Feb, 2021
我们提出了一种新的视频转换器的降压块 - 轨迹关注,并提出了一种解决计算和存储在输入大小上的二次依赖性的新方法,其中特别重要的是对于高分辨率或长视频。将这些想法应用于视频行动识别的具体任务中,并在 Kinetics,Something-Something V2 和 Epic-Kitchens 数据集上取得了最先进的结果。
Jun, 2021
本文提出了一种新的空时变换器网络(ST-TR),该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块(SSA)用于理解不同身体部位之间的帧内相互作用,而时间自我注意模块(TSA)用于建模帧间的相关性。两个模块在两个流网络中被结合使用,对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。
Dec, 2020
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文提出了一种新颖的框架 Temporal Recurrent Network (TRN) 来模拟视频帧的时间上下文,在线执行行动检测并预测即将发生的行动,实现了累积历史证据和预测未来信息相结合的在线识别方式,并在 HDD、TVSeries 和 THUMOS'14 三个数据集上进行评估,表明 TRN 的性能显著优于现有技术。
Nov, 2018
本文提出一种 Temporal Patch Shift(TPS)方法,用于在 transformer 模型中对视频进行高效的三维自注意力建模,可插入到现有的二维 transformer 模型中以增强时空特征学习,该方法在计算和内存成本上比现有方法更加高效,同时在 Something-something V1&V2、Diving-48 和 Kinetics400 上取得了与最先进水平相当的性能。
Jul, 2022
本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型,通过采用局部窗口注意力和全局注意力模块,实现了对长视频片段中动作的高效检测和定位,与目前流行的基于 Transformer 的模型相比,提高了精度并减少了冗余计算。
Jul, 2022
提出了一种长短时 Transformer(LSTR)算法,用于在线动作检测,它采用了长短时记忆机制来建模长序列数据,其中编码器动态地利用拓展的时间窗口的历史信息,解码器专注于一个短时间窗口来建模数据的细节特征。与先前的工作相比,LSTR 提供了一种有效且高效的建模长视频的方法,其在三种标准的在线动作检测基准测试(THUMOS'14、TVSeries 和 HACS Segment)上实现了最先进的性能。
Jul, 2021
本论文提出了一种基于注意机制和卷积长短时记忆(ConvLSTM)的时序单次检测器(TSSD),以实现视频中的实时在线目标检测。采用 ConvLSTM 来集成时间金字塔特征层次,并使用一个低级时序单元和一个高级单元来设计新颖的结构(LH-TU)进行多尺度特征图。关注 ConvLSTM(AC-LSTM)的创新时间分析单元被设计为时间上的背景抑制和尺度抑制,并跨时间集成具有关注注意力的特征。此外,针对时间一致性设计了联合损失和多步训练。最后,利用在线管道分析(OTA)进行识别。评估结果证明,该方法在检测和跟踪性能方面具有优势。
Mar, 2018