本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
本文中提出使用空间门控机制来处理 3D 核的空间 - 时间分解,实现 Gate-Shift Module (GSM) 用于视频动作识别,结果在 Something Something-V1 和 Diving48 数据集上达到了最新的最优结果,而且在 EPIC-Kitchens 数据集上,获得了竞争性结果,具有远低于模型复杂度的优点。
Dec, 2019
提出了一个基于低级时空特征和高级的段分类器的动作分割模型, 结合了半马尔可夫模型, 并引入一种比当前方法快数倍的有效的有约束的段推断算法。在烹饪和手术动作数据集上观察到明显的改进。
Feb, 2016
本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法,使用卷积结构学习适当的模式,同时保留了特征流,并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。
May, 2019
本文提出了一种新的视频表示方法,通过整合基于学习的时空特征聚合的最先进的双流网络,对整个视频的局部卷积特征进行聚合,探究了不同的空间和时间池化策略,将不同流的信号合并。实验表明,我们的表示方法相较于基础架构提升了 13% 的分类性能,在 HMDB51、UCF101、Charades 视频分类基准上的性能均优于其他基线。
Apr, 2017
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
提出了一种新的空时金字塔网络,将空间和时间特征以金字塔结构融合,从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作,最终网络在标准视频数据集上取得了最先进的结果。
本文提出了一种高效的时间推理图 (TRG), 用于同时捕捉视频序列之间的外观特征和时间关系。通过构建可学习的时间关系图来探索多尺度范围上的时间关系。在多头时间邻接矩阵的帮助下,提出了一个多头时间关系聚合器来提取那些通过图卷积计算的特征的语义含义。实验证明,通过我们的 TRG 进行时间关系推理可以提取用于活动识别的判别特征。
Aug, 2019
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020