视频动作识别的协作时空特征学习
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。
Dec, 2014
本文提出了一种混合式深度学习框架,旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模,并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验,结果表明该框架相对于传统策略具有更高的性能.
Apr, 2015
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
为了最好地利用时空信息,我们研究了在空间和时间上融合 ConvNet 塔的多种方法,并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构,以融合视频片段的空时信息,并在标准基准测试中评估了其性能,该架构达到了最先进的结果。
Apr, 2016
提出了一种新的空时金字塔网络,将空间和时间特征以金字塔结构融合,从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作,最终网络在标准视频数据集上取得了最先进的结果。
Mar, 2019
基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明,但是为了捕捉到运动模式,仍然需要专门的时空特征学习,本文提出了一种经验 ConvNet 架构搜索方法,通过 3D 残差 ConvNet 实现,其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D,且推断时间减少一半、模型大小减小一半,具有更紧凑的表现形式。
Aug, 2017
本文提出一种名为 “grouped spatial-temporal aggregation” 的新型分解方法,将特征通道分解成空间和时间分组并在并行处理。实验证明,该方法在需要时序推理的动作识别任务上具有更加高效的性能。
Sep, 2019
本文提出了一种名为 FstCN 的新型 3D 深度架构,能够有效处理人类行为三维动态序列信号,并且利用转换和排列操作,将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程,同时提出了基于视频片段采样的有效训练和推断策略,在 UCF-101 和 HMDB-51 数据集上的表现比传统 CNN 方法更好,与最近一种利用辅助训练视频的方法相当。
Oct, 2015