动态转移：防止热限制的发生

ICMLJun, 2022

Play It Cool: Dynamic Shifting Prevents Thermal Throttling

Yang Zhou, Feng Liang, Ting-wu Chin, Diana Marculescu

TL;DR本研究旨在解决在移动设备上运行机器学习模型时出现的过热现象引起的处理器降频和模型推理延迟增加的问题，提出了一种基于动态网络的动态移位方法，在保持一定准确性的前提下根据热量变化智能选择大小模型，从而实现一致的应用性能表现。

Abstract

machine learning (ML) has entered the mobile era where an enormous number of ML models are deployed on edge devices. However, running common ML models on edge devices continuously may generate excessive heat from the computation, forcing the device to "slow down" to prevent overheating

machine learning mobile devices thermal throttling dynamic networks model latency

发现论文，激发创造

PolyThrottle: 边缘设备上的能效高的神经网络推断

通过使用约束性贝叶斯优化，该研究论文研究在推理阶段配置与能耗之间的关系，提出了 PolyThrottle 解决方案，能够在满足应用约束条件的同时，对个别硬件组件进行优化配置，从而将能耗降低了 36%。

Oct, 2023

MELTing 点：语言变形器的移动评估

机器学习中的 Transformers 引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM 的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。

Mar, 2024

异构移动处理器上的深度学习推理：潜力与陷阱

在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增，在各种处理单元（如 CPU、GPU 和 NPU）的支持下，移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验，涵盖了各种深度学习模型、移动软件 / 硬件环境、工作负载模式和资源可用性，综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战，并确定了现有技术的局限性，并强调了跨层级优化的机会。

May, 2024

DNNShifter: 边缘计算的高效 DNN 剪枝系统

DNNShifter 是一个端到端的 DNN 训练、空间修剪和模型切换系统，通过采用结构化修剪的新方法，快速地生成适用于边缘推理的模型变体，这些模型变体比密集模型小且快速，并且在保持相似精度的同时，产生出高效的推理延迟和低开销模型切换和内存利用。

Sep, 2023

移动 / 嵌入式设备高效推理的动态深度神经网络和运行时管理

深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而，由于计算资源有限，有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法，通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中，我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法，在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍，或在相似的延迟下准确率提高了 5.1%。同时，我们设计了一个分级运行时资源管理器，在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低，在两个并发模型部署场景中能量降低了 89%，延迟降低了 23%。

Jan, 2024

使用移动 GPU 进行设备端神经网络推断

本文介绍了如何利用手机上普遍存在的 GPU 加速器，在 Android 和 iOS 设备上实现深度神经网络的实时推断，并将其集成到开源项目 TensorFlow Lite 中。

Jul, 2019

硬件感知机器学习：建模与优化

本篇论文全面评估现有的面向硬件的深度学习模型建模和优化方法，提出几个值得探讨的研究方向，旨在让深度学习的应用对硬件系统和平台产生显著影响。

Sep, 2018

将机器学习模型锁定到硬件中

通过限制模型在特定硬件上的使用，防止未经授权的模型使用，本文研究了机器学习特定机制的可行性，展示了锁定机制的可行性，并证明锁定具有可忽略的工作和延迟开销，同时显著限制了在未授权硬件上使用模型的可行性。

May, 2024

基于模型修剪和编译器优化在移动平台上实现实时 DNN 推理

本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行，实验结果表明这些优化技术可以实现多个深度神经网络应用，如风格迁移、DNN 着色和超分辨率的实时移动执行。

Apr, 2020

机器学习辅助热电制冷多热点热管理

这项研究介绍了一种新颖的机器学习辅助优化算法，用于实时多热点条件下基于实时多热点条件下基于实时多热点条件下基于实时多热点条件下基于实时多热点条件下的系统并获得准确的温度预测，从而实现全局最优温度控制。

Apr, 2024