本文提出一种基于深度学习的视频分类与识别方法,使用判别池化和多实例学习对视频进行分类,取得了在多项基准测试数据集上的最佳表现。
Mar, 2018
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
Jun, 2019
本论文介绍了自监督学习,通过视频中的 Dense Predictive Coding (DPC) 框架形成具有密集的时空块的编码,利用课程训练方式预测未来,并在 Kinetics-400 数据集上进行实验,结果表明,DPC 的自监督预训练性能超过了以前的方法,并接近于在 ImageNet 上预先训练的基线。
Sep, 2019
本文提出了一种多视学习的稀疏编码方法,该方法无缝集成了 Hessian 正则化和判别式稀疏编码,可用于图像注释,通过对 PASCAL VOC'07 数据集进行广泛实验,表明了该方法的有效性。
Jul, 2013
本文提出了一种基于层次语义对比的视频异常检测模型,结合了前景对象和背景场景特征,通过自动编码器框架增强编码的潜在特征,同时使用对象级和场景级对比学习,增强模型的判别能力,并通过基于骨架的运动增强来进一步处理少见的正常活动。经过在三个常规和场景相关混合数据集上的实验证明了这种方法的有效性。
Mar, 2023
本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统,采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法,在公开测试集上达到了 GAP 0.84346 的成绩。
Jul, 2017
本论文提出一种基于生成对抗网络的动作识别框架,使用大规模视频活动数据集上的深度卷积生成对抗网络(DCGAN)进行无监督学习,然后通过有标签数据集对已训练的鉴别器进行微调,实现准确识别人类活动的半监督学习。其中本文找到了好的网络架构和超参数以最大化鉴别器的效果。这种只使用外观信息的半监督学习方法达到了目前半监督动作识别方法,如 UCF101 和 HMDB51 等,的优劣表现。
Jan, 2018
提出了一种解耦场景和物体运动信息的 DSM 方法,通过构造正负剪辑来加强模型对物体运动信息的关注,减少场景信息的影响,并在两项任务上进行实验,发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1%和 8.8%。
Sep, 2020
本文提出一种基于稀疏图形表示的判别分析方法,针对异构人脸识别场景下出现的纹理差异等问题,设计了自适应的稀疏图形表示方案,通过 Markov 网络生成自适应稀疏向量;并引入基于空间分块的判别分析方法以优化自适应稀疏向量,实验证明该方法在 6 个常用异构人脸数据集上达到了优异表现。
Jul, 2016
本文提出了一种在线优化算法,旨在解决具有可扩展性差的判别聚类方法所面临的问题,并将其应用于电影中弱监督学习的问题,从而显著提高了弱监督动作识别的效果。