利用较少帧数进行高效视频分类
本文主要介绍了利用蒸馏的思想来缩短视频分类问题的计算时间。通过建立师生网络,使得其中的学生网络只需要处理视频片段的一小部分,便能取得与完整视频相同水平的分类表现,从而使得在验证期推断时能够获得 30% 的时间节约。
May, 2018
本文介绍了一种基于低分辨率帧和高分辨率帧的轻量级、节省内存的行动识别架构,通过 FLOPs 降低 3~4 倍,内存使用降低 2 倍,利用提出的时间聚合模块来模拟视频中的时间依赖性。该模型在多项行动识别基准测试中表现良好。
Dec, 2019
本研究旨在减小大型权重矩阵所带来的训练和部署难度,提出一种基于 Deep Bag-of-Frames、NetVLAD 和 NetFisherVectors 等先进网络架构的紧凑视频分类模型,并在广泛使用的 YouTube-8M 视频分类数据集上进行了深入的实验研究,发现循环 DBoF 嵌入在模型大小和准确性之间取得了很好的平衡。
Oct, 2018
本文提出了一种有效的语义视频分割方法,借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题,我们在推理过程中采用逐帧方式处理,其中显式考虑帧与帧之间的时间一致性,并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法,我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在 Cityscapes 和 Camvid 等流行基准测试中优于先前的基于关键帧的方法,并提高了与独立训练每帧的对应基线的时间一致性。
Feb, 2020
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发,其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测,包括多种变体的循环神经网络和广义 VLAD,以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中,我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198,在私人测试数据的 50% 上达到了 0.84193,在 650 支队伍中排名第 4。
Jul, 2017
本文提出了一种基于长期信息的网络架构,能够同时加快视频处理速度和提高动作分类和视频字幕质量,其采样策略利用邻近帧的冗余性能够高效地处理每秒多达 230 个视频,具有与现有方法相当的性能且快速度可达现有方法的 10 到 80 倍。
Apr, 2018
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
Jun, 2019
本文提出了一种轻量级的视频物体检测网络,采用稀疏关键帧上的轻量级图像物体探测器进行检测,并在关键帧上应用基于流量引导的 GRU 模块,对特征进行有效聚合。对于非关键帧,进行稀疏特征传播。该系统在移动设备上运行速度较快,在 HuaWei Mate 8 上可达到 60.2%的 mAP 得分以及 25.6 fps 的速度。
Apr, 2018