提出了一种函数为基础的时间汇集方法,该方法可捕获视频序列数据的潜在结构,并生成一个新的视频表示形式以适用于动作识别问题。结果表明,对于泛化的动作识别问题,精细化的动作识别问题和手势识别问题等,此方法都能够显著提高平均汇集基线的绝对值 7-10。
Dec, 2015
利用核化排名池化方法压缩数据序列表示,作为时间序列数据处理的新方法,能够提高计算机视觉,机器学习,人类动作识别等算法的效率和准确性。
Mar, 2018
本文提出一种基于深度学习的视频分类与识别方法,使用判别池化和多实例学习对视频进行分类,取得了在多项基准测试数据集上的最佳表现。
本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法,使用卷积结构学习适当的模式,同时保留了特征流,并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。
May, 2019
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
本文提出了一种基于时间序列池化的特征表示框架,用于抽象活动视频中的短期 / 长期特征描述符的变化,并用于处理第一人称视频活动数据集的动作识别问题,与基于视觉词袋和改进的 Fisher 矢量的特征表示相比能够更好地表征第一人称视频中的动作。
Dec, 2014
探讨使用 CNN 特征表示整个视频以用于人类动作识别的问题,通过提取局部特征并将它们聚合成全局特征,将另一个映射函数用于将全局特征映射到全局标签
Jan, 2017
本文提出了一种空间 - 时间级联框架,利用深度学习算法提取人类活动的深入特征,并使用双向 Gated 循环单元进行长期时间建模和人类行为识别。实验结果表明,该方法与现有算法相比在帧每秒的执行时间方面提高了最多 167 倍。
Aug, 2022
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
Jun, 2019
本研究提出了一种基于深度强化学习的新方法,通过构建语义关系图来显式地对人之间的关系进行建模,并应用两个代理来逐步优化低层次的空间 - 时间特征和高层次的语义关系,在离散动作空间中,特征蒸馏代理通过提炼最具信息量的关键帧来优化低层次特征,在连续动作空间中,关系门控代理调整高层次的语义图以更多地关注与群体相关的关系,实验结果表明,该方法在两个广泛应用的基准上具有有效性和优越性。
Aug, 2019