本文提出了一种新的视频动作识别框架 - TSN,并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明,本方法在 HMDB51(69.4%)和 UCF101(94.2%)数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型,定性展示了时间段网络和所提出良好实践的有效性。
Aug, 2016
本文提出了一种基于结构化分割网络 (SSN) 的新型框架,该框架可以通过一个结构化的时间金字塔模型来建模每个动作实例的时间结构,并通过划分的判别模型有效地区分正面提议和背景或不完整的提议,在 THUMOS14 和 ActivityNet 数据集上表现优于现有方法。
Apr, 2017
提出了一种统一的时间卷积网络方法,可以逐层捕捉低、中、高层次时间尺度上的关系,在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能,并且可以在较短时间内训练完成。
介绍了一种新的 Temporal Convolutional Networks 模型,可用于对视频中动作的细粒度分割和检测,具有高效性和良好的表现。
Nov, 2016
本研究提出了一种多阶段架构方法来解决视频动作分段问题,使用扩张卷积神经网络来生成初始预测并利用平滑损失进行训练,模型在多个数据集上实现了最新的研究成果。
Mar, 2019
本文提出了一种新的视觉结构,称为 Temporal Difference Network (TDN),其核心是通过一个高效的 Temporal Difference Module (TDM) 来捕获多尺度信息,以提高动作识别的效率。在 Something-Something V1&V2 数据集上,TDN 呈现了一个新的最高水平,并且与 Kinetics-400 数据集上的最佳性能持平,同时我们还对 TDN 进行了深入的消融研究和可视化结果的绘制,为时序差分建模提供了全面的分析。
Dec, 2020
本文提出了一种多阶段架构的深度学习模型,通过利用扩张时间卷积和双重扩张时间卷积层,实现了在长时间的未修剪视频中对动作进行准确的时序分割,并在三个数据集上取得了最先进的结果。
Jun, 2020
本研究提出了一种基于帧分割网络(FSN)的方法,通过在 2D 空间 CNN 上放置时间 CNN,利用时空上下文信息通过帧级密集预测,实现对视频剪辑的精确定位,该方法可在弱监督场景下使用,实现了优越的帧级动作定位和时间上的动作定位。
Feb, 2019
本文提出了一种名为动态采样网络(DSN)的新框架来提高视频中的动作识别效果,并增加推理时的效率。DSN 由采样模块和分类模块组成,其目标是学习一种采样策略,以即时选择保留哪些片段并使用这些选择的片段训练剪辑级分类器,从而实现基于这些选择的片段执行动作识别。通过基于四个行动识别数据集的广泛实验来研究 DSN 框架的不同方面,实验结果表明,仅使用不到一半的片段,DSN 能够大大提高推理效率,并仍然能够获得略微更好或相当的识别精度,达到了领先水平。
本文提出了一种新颖的框架 Temporal Recurrent Network (TRN) 来模拟视频帧的时间上下文,在线执行行动检测并预测即将发生的行动,实现了累积历史证据和预测未来信息相结合的在线识别方式,并在 HDD、TVSeries 和 THUMOS'14 三个数据集上进行评估,表明 TRN 的性能显著优于现有技术。
Nov, 2018