视频识别的深度特征流
该研究提出了一种基于流引导特征聚合的视频物体检测学习框架,该框架通过沿着运动路径聚合邻近特征来提高视频的识别精度,避免了视频中物体外观退化的问题,并且完全可训练,与 ImageNet VID 挑战的最佳工程系统相当
Mar, 2017
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
我们提出了一种多任务学习模型 ActionFlowNet,将外部光流数据输入到卷积神经网络中,同时训练网络以从原始像素中直接识别动作和估计光流,从而捕捉单个模型中的外观和运动信息,提高动作识别准确率。
Dec, 2016
本文主要研究深度伪造影像技术中因时域信息缺失导致传统方法检测失误的问题,并基于光流特征提取、CNN 和 RNN 混合模型开展研究,实现对 DFDC、FF++ 和 Celeb-DF 等开源数据集中深度伪造影像的有效检测,样本数量不足 100 帧时在 DFDC、FF++、Celeb-DF 数据集上的精度为 66.26%、91.21% 和 79.49%,有望实现对深度伪造内容的早期检测。
Jul, 2022
介绍了 SlowFast 网络用于视频识别,它包括 Slow 路径和 Fast 路径,其中 Slow 路径能捕捉空间语义,Fast 路径能捕捉精细时间分辨率的动态信息,并能在减小通道容量的前提下实现高精度的视频识别。
Dec, 2018
本文提出了一种轻量级的视频物体检测网络,采用稀疏关键帧上的轻量级图像物体探测器进行检测,并在关键帧上应用基于流量引导的 GRU 模块,对特征进行有效聚合。对于非关键帧,进行稀疏特征传播。该系统在移动设备上运行速度较快,在 HuaWei Mate 8 上可达到 60.2%的 mAP 得分以及 25.6 fps 的速度。
Apr, 2018
本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本研究利用深度学习中的 DenseNet 架构,纵向连接对求解密集光流估计问题具有隐式深度监督的特点,扩展当前 DenseNet 到全卷积网络,通过无监督学习的方式实现了运动估计。实验结果在三个标准基准测试中证明,相较于其他广泛采用的 CNN 架构,DenseNet 更适合进行光流估计。
Jul, 2017
本文提出了一种名为 Impression Network 的视频物体检测框架,它通过迭代地融合可以提取的稀疏帧特征,创建一种名为 'impression feature' 的自然高效特征聚合机制,在提高速度的同时,获得了比现有方法更高的准确性。
Dec, 2017