MoViNets:高效视频识别的移动视频网络
本文介绍了 MobileNets 这一基于深度可分离卷积的轻量级深度神经网络架构,提出了利用全局超参数在时延和准确性之间平衡的方法,并在图像分类等多个领域进行了广泛实验。
Apr, 2017
该论文提出了使用 Motion aided Memory Network (MMNet) 进行快速目标检测的方法,并取得了较高的检测效果,验证了这种方法在压缩视频上的可行性。
Nov, 2018
本文提出一种名为 AssembleNet 的方法,通过进化算法自动发现连接更好、时空交互更强的神经网络结构,以达到更好的视频理解效果。该方法在公共视频数据集上优于以往的方法,尤其是在 Charades 数据集上,58.6% 的 mAP 表现尤为出色。
May, 2019
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
本文提出了 MobileFaceNets 类的 CNN 模型,其使用不到 100 万个参数,专为移动和嵌入式设备上的高准确度实时人脸验证而设计,并成功解决了普通移动网络在人脸验证方面的弱点,达到了与数百 MB 大小的最新大型 CNN 模型相媲美的高精度和更多超过 MobileNetV2 2 倍的实际加速。
Apr, 2018
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
本文提出一种深度神经网络模型,可以在利用 3D 传感器获取的数据的基础上联合推理 3D 检测、跟踪和运动预测,该方法在鸟瞰图表示的 3D 世界上执行时空 3D 卷积,具有高效的特点,并在多个北美城市捕获的超大规模数据集上进行实验,结果显示该方法在性能上大幅领先于现有技术,而且多项任务仅需要 30 毫秒即可完成。
Dec, 2020
本文提出了基于反复卷积结构的在线物体检测模型,并使用瓶颈长短时记忆层来降低计算成本。该模型在移动 CPU 上实现了 15 FPS 的实时推断速度。
Nov, 2017
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019