深度视频表示学习综述
本文提出了一种利用4个Pseudo-3D残差块构建的Pseudo-3D Residual Net (P3D ResNet)架构,并将其应用于视频分类问题中,克服了3D CNN的计算成本及内存需求高的问题,通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。
Nov, 2017
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R(2+1)D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
通过可视化两流模型学习识别视频中人类动作所获得的深度时空表示,我们揭示了一些关键的观察结果,例如交叉流融合可以让网络学习到真正的时空特征,而不是简单的外观和动作特征,同时我们发现可视化不仅可以揭示学习到的表示,还可以说明系统失效的原因。
Jan, 2018
该论文探讨了自我监督方法在无监督视觉表示学习中的重要性,提出之前CNN设计的标准配方不一定适用于自我监督表示学习, 并大幅度提高了之前提出技术的性能,超越了之前公布的最先进结果。
Jan, 2019
本文提出了一种新颖的神经操作,通过在三个正交视图上进行2D卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文回顾了用于视频序列预测的深度学习方法,定义了视频预测的基础知识、强调其对表示学习的潜在能力和现有的方法,并提供了数据集和实验结果,以评估其在定量基础上的最新技术进展。最后,总结了这一领域的一般结论、未来的研究方向和挑战。
Apr, 2020
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个3D骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
本文通过对四个最新的基于图像的视角的统一,提出了一种可以很好地概括所有这些方法的简单目标,该目标鼓励同一视频中的时间持久特征,在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人,我们从该研究中得出了一系列有趣的观察结果,例如,即使时间跨度为60秒,鼓励长时间持久性也可以很有效。
Apr, 2021
该研究探讨了以特征预测作为无监督学习的独立目标,并介绍了V-JEPA,一个仅使用特征预测目标进行训练的视觉模型集合,无需预训练图像编码器、文本、负样本、重建或其他监督方式。我们的研究结果表明,通过预测视频特征进行学习可以得到性能良好的通用视觉表示,适用于运动和外观相关的任务,无需调整模型参数,如冻结骨干网络。我们最大的模型,即仅使用视频进行训练的ViT-H/16,在Kinetics-400上获得81.9%的准确率,在Something-Something-v2上获得72.2%的准确率,在ImageNet1K上获得77.9%的准确率。
Feb, 2024