动态转移:防止热限制的发生
通过使用约束性贝叶斯优化,该研究论文研究在推理阶段配置与能耗之间的关系,提出了 PolyThrottle 解决方案,能够在满足应用约束条件的同时,对个别硬件组件进行优化配置,从而将能耗降低了 36%。
Oct, 2023
机器学习中的 Transformers 引领了一场革命,但由于其运行时要求,不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况,并对性能、能效和准确性进行了量化。结果表明,移动设备的执行存在性能差异,LLM 的执行主要受内存限制。量化可以显著减少内存需求,但会带来一定的准确性损失。同时,作者认为生态系统仍处于初级阶段,并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。
Mar, 2024
在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增,在各种处理单元(如 CPU、GPU 和 NPU)的支持下,移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验,涵盖了各种深度学习模型、移动软件 / 硬件环境、工作负载模式和资源可用性,综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战,并确定了现有技术的局限性,并强调了跨层级优化的机会。
May, 2024
DNNShifter 是一个端到端的 DNN 训练、空间修剪和模型切换系统,通过采用结构化修剪的新方法,快速地生成适用于边缘推理的模型变体,这些模型变体比密集模型小且快速,并且在保持相似精度的同时,产生出高效的推理延迟和低开销模型切换和内存利用。
Sep, 2023
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法,在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍,或在相似的延迟下准确率提高了 5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低,在两个并发模型部署场景中能量降低了 89%,延迟降低了 23%。
Jan, 2024
本文介绍了如何利用手机上普遍存在的 GPU 加速器,在 Android 和 iOS 设备上实现深度神经网络的实时推断,并将其集成到开源项目 TensorFlow Lite 中。
Jul, 2019
通过限制模型在特定硬件上的使用,防止未经授权的模型使用,本文研究了机器学习特定机制的可行性,展示了锁定机制的可行性,并证明锁定具有可忽略的工作和延迟开销,同时显著限制了在未授权硬件上使用模型的可行性。
May, 2024
本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行,实验结果表明这些优化技术可以实现多个深度神经网络应用,如风格迁移、DNN 着色和超分辨率的实时移动执行。
Apr, 2020
这项研究介绍了一种新颖的机器学习辅助优化算法,用于实时多热点条件下基于实时多热点条件下基于实时多热点条件下基于实时多热点条件下基于实时多热点条件下的系统并获得准确的温度预测,从而实现全局最优温度控制。
Apr, 2024