移动设备上的深度学习 - 综述
介绍了一个基于GPU加速的开源库CNNdroid,可以在Android设备上执行训练好的深度卷积神经网络,并实现了高达60倍的加速和130倍的能量节省。
Nov, 2015
通过对ARMv7设备上现代深度学习工作负载所需的核心基本操作进行开源实现和全面分析,我们展示了与现有市场上的float32和int8基准相比,使用大于4位精度的最先进的超低精度技术可获得4倍至20倍的加速度。
Dec, 2017
本文通过对深度学习和移动无线网络研究领域的全面调查,桥接了两个领域之间的鸿沟,并讨论了如何将深度学习技术应用到移动系统中,从而提出了当前研究的挑战和未来发展方向。
Mar, 2018
本文研究了Android生态系统中深度学习的现状及其在智能手机上的限制,同时概述了四个主要移动芯片平台(Qualcomm、HiSilicon、MediaTek和Samsung)上可用的硬件加速资源,并介绍了利用AI基准测试收集的不同移动SoCs的实际性能结果。
Oct, 2018
本文介绍了如何利用手机上普遍存在的GPU加速器,在Android和iOS设备上实现深度神经网络的实时推断,并将其集成到开源项目TensorFlow Lite中。
Jul, 2019
本文评估了高通、海思、三星、联发科和紫光展锐提供的AI推理硬件加速的所有芯片组的性能,并比较了它们的结果。同时,我们还讨论了Android ML流水线的最近变化,并提供了在移动设备上部署深度学习模型的概述。
Oct, 2019
本文介绍了移动神经网络(Mobile Neural Network,MNN),它是一种适用于移动应用的普适且高效的推理引擎,解决了在移动设备上进行深度学习模型推理的模型兼容性、设备多样性和资源限制等挑战,采用了称为预推理的机制进行运行时优化,针对操作符进行了彻底的内核优化以实现最佳计算性能,并引入了后端抽象模块,实现了混合调度并保持引擎轻量级。广泛的基准实验表明,MNN在性能上与其他流行的轻量级深度学习框架相当。
Feb, 2020
本文提出了一种差分映射方案,以提高ReRAM的容错性,实现无需大规模优化的负载裁剪技术,从而在代表性DNN任务中容忍几乎高达一个数量级的故障率,而不需要额外的硬件成本。
Jun, 2021
本文概述了高效深度学习的方法、系统和应用,包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练,以及各种针对特定任务和空间-时间冗余的加速技术和系统设计。
Apr, 2022
在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增,在各种处理单元(如CPU、GPU和NPU)的支持下,移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验,涵盖了各种深度学习模型、移动软件/硬件环境、工作负载模式和资源可用性,综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战,并确定了现有技术的局限性,并强调了跨层级优化的机会。
May, 2024