时空关注的两流协同学习用于视频分类
本文提出了一种混合式深度学习框架,旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模,并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验,结果表明该框架相对于传统策略具有更高的性能.
Apr, 2015
提出了一种基于 CNN 的时空注意力(CSTA)方法,将视频的每个帧的特征堆叠起来形成类似图像的帧表示,并应用 2D CNN 对这些帧特征进行处理,实现对关键属性的学习和视觉重要性的捕捉,在 SumMe 和 TVSum 等数据集上实验证明了该方法在减少计算量的同时取得了最先进的性能。
May, 2024
提出一种新的用于搜索空间时间关注单元的方法,可以用于改善现有的骨干网络(如 I3D 或 S3D)中的视频分类精度,并在 Kinetics-600 和 MiT 数据集上超过 2%。
Jul, 2020
本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
该论文以深度学习为基础,通过研究网络架构、模型融合、学习参数和最终预测方法等等选项对视频分类进行了深入研究,并在两个流行的视频分类基准测试中获得了竞争力极强的结果。
Apr, 2015
本文提出了一种用于视频动作识别的两流光流引导卷积注意网络模型,通过正确补偿相机运动,可以用光流来引导关注人类前景,从而防止背景干扰,得到了良好的性能表现。
Aug, 2017
本研究提出了基于深度学习的时空注意力预测模型,其中采用两条流网络架构,探究了不同的信息融合机制。实验结果表明,采用运动信息可以有助于静态注意力估计,并取得了与最先进模型相竞争的结果。
Jul, 2016
通过研究视频分类的常见数据集,本文提出了一种注意力集群的本地特征融合框架,并引入一种转移操作来捕获更多样化的信号,证明了这种基于注意力的本地特征融合的有效性,该算法在三个真实世界的视频分类数据集上都取得了竞争性的结果,并在 ActivityNet Kinetics Challenge 2017 中荣获胜利。
Nov, 2017
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019