视频行为识别模型的大规模稳健性分析
提出了两种新的评估方法来评估模型对训练和测试数据之间的分布差异的鲁棒性,通过采用梯度上升在数据增强参数上生成对分类模型具有挑战性的视频视图的增强视图,并通过 ' 课程 ' 调度视频增强的强度来解决鲁棒性问题。在现实世界的应用中,通过对比基准,在三种最先进的动作识别模型 - TSM、Video Swin Transformer 和 Uniformer 上实验表明了所提出的对抗性增强方法的优越性能,从而提高了视频动作识别性能。
Jan, 2024
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
本文综述了 200 多篇关于视频动作识别的深度学习论文,介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程,包括深度学习适应、双流网络、3D 卷积核和计算效率模型,并对几种方法在典型数据集上进行了基准测试,最后,讨论了视频动作识别面临的问题和未来的研究机会。
Dec, 2020
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
本文研究图像分类器对视频时序扰动的鲁棒性。我们构建了两个数据集,ImageNet-Vid-Robust 和 YTBB-Robust,包含 57,897 张图像,分为 3,139 组感知相似图像,并对其进行了重新注释以进行相似性分析。我们评估了各种经过 ImageNet 预训练的分类器,结果显示在两个数据集上的中位分类准确性分别下降了 16 和 10。此外,我们还评估了三个检测模型,并显示自然扰动会引起分类和定位误差,导致检测 mAP 中位数下降 14 个点。我们的分析表明,视频中自然发生的扰动对于在需要可靠和低延迟预测的环境中部署卷积神经网络是一个实际而重大的挑战。
Jun, 2019
该研究提出了一种针对空间 - 时间模型的方法,它能够在单个视频样本上进行特征分布对齐,保证了预测的一致性,并且在三个基准行动识别数据集上都表现出极高的性能。
Nov, 2022
本文介绍了一种针对视频领域的区域局部性 Transformer 架构,通过使用 Swin Transformer 设计来实现,同时利用预训练模型的威力,取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。
Jun, 2021