DeepCache：移动端深度视觉高效缓存

Dec, 2017

DeepCache：移动端深度视觉高效缓存

DeepCache: Principled Cache for Mobile Deep Vision

PDF

Mengwei Xu, Mengze Zhu, Yunxin Liu, Felix Xiaozhu Lin, Xuanzhe Liu

TL;DRDeepCache 是一种基于时间局部性的缓存设计，能提高深度学习推理的效率且适用于移动端应用，能平衡缓存能力、资源开销和模型精度损失等问题，并在实验中展现了一定的推理时间和系统能耗的优化。

Abstract

We present deepcache, a principled cache design for deep learning inference in continuous →

deepcache cache design deep learning inference mobile vision temporal locality

发现论文，激发创造

图像识别的简单缓存模型

使用简单的键值缓存记忆提出了一种不需要重新训练或微调的方法来提高预训练模型的分类性能，并可以增强对抗攻击的鲁棒性。通过将靠近输出的层提取的特征作为键来形成键值，可以在大型图像识别模型中获得显著的性能提升。

May, 2018

基于模型修剪和编译器优化在移动平台上实现实时 DNN 推理

本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行，实验结果表明这些优化技术可以实现多个深度神经网络应用，如风格迁移、DNN 着色和超分辨率的实时移动执行。

Apr, 2020

动态推理：一种新的高效视频动作识别方法

本文提出了一种动态推断方法，从网络深度和输入视频帧数的角度来提高推断效率，通过在输入帧和计算图的深度之间建立将预测模块放置在预先选择的检查点上，并按照预定义的路径逐步在网格上进行推断，可在中途进行预测和提前停止。通过实例化三个动态推断框架并使用两个知名的骨干卷积神经网络，证明了新方法的优越性。

Feb, 2020

面向移动设备的高性能视频目标检测

本文提出了一种轻量级的视频物体检测网络，采用稀疏关键帧上的轻量级图像物体探测器进行检测，并在关键帧上应用基于流量引导的 GRU 模块，对特征进行有效聚合。对于非关键帧，进行稀疏特征传播。该系统在移动设备上运行速度较快，在 HuaWei Mate 8 上可达到 60.2％的 mAP 得分以及 25.6 fps 的速度。

Apr, 2018

基于逐帧推理的高效语义视频分割

本文提出了一种有效的语义视频分割方法，借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题，我们在推理过程中采用逐帧方式处理，其中显式考虑帧与帧之间的时间一致性，并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法，我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在 Cityscapes 和 Camvid 等流行基准测试中优于先前的基于关键帧的方法，并提高了与独立训练每帧的对应基线的时间一致性。

Feb, 2020

MobiFace: 移动设备上轻量级深度学习人脸识别

本研究提出了一种名为 MobiFace 的轻量级深度神经网络，可在移动设备上进行人脸识别，并在某些情况下表现出与大型深度网络的竞争力。

Nov, 2018

移动 GPU 上亚毫秒级神经脸部检测

BlazeFace 是一个轻量且表现良好的人脸检测器，适用于移动 GPU 推理，能够以 200-1000+FPS 的速度运行。它可应用于需要准确面部区域的增强现实流水线，作为 2D / 3D 面部关键点或几何估计，面部特征或表情分类以及面部区域分割的输入。我们的贡献包括一个轻量级的特征提取网络、一个从 SSD 修改的 GPU 友好型锚点方案以及一种改进的连接决策策略。

Jul, 2019

通过模型冻结加速深度学习推理

通过缓存中间层输出，可以避免运行所有 DNN 层，从而减少预测延迟，本文介绍了 Freeze Inference 系统，它通过在每个中间层引入逼近缓存，并讨论如何减小缓存大小和提高缓存命中率，未来的挑战也被提出。

Feb, 2020

快与慢：基于记忆的移动视频物体检测

本文探讨了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。我们通过交替使用传统的特征提取器和极其轻量级的提取器展示了在存在时间记忆的情况下，进行准确检测所需的计算量是非常小的。此外，我们展示了记忆容纳了足够的信息以应用于强化学习算法来学习自适应推断策略。我们的模型在 Imaget VID 2015 数据集上实现了移动方法中的最先进性能，并在 Pixel 3 手机上以 70+ FPS 的速度运行。

Mar, 2019

DeepSense: 一种用于时序移动感知数据处理的统一深度学习框架

DeepSense 是一个综合性的深度学习框架，能够直接处理移动感应中的噪声和特征自定义挑战。该框架可以应用于广泛的应用，包括汽车追踪、人类活动识别和生物运动分析，大幅优于现有方法。

Nov, 2016