基于成本的机器学习流水线硬件软件协同优化

Oct, 2023

基于成本的机器学习流水线硬件软件协同优化

Cost-Driven Hardware-Software Co-Optimization of Machine Learning Pipelines

Ravit Sharma, Wojciech Romaszkan, Feiqian Zhu, Puneet Gupta

TL;DR通过量化、成本限制平台等因素综合考虑，探讨如何在边缘平台上最优化地设计系统和部署模型，以实现广泛适用的智能设备。

Abstract

Researchers have long touted a vision of the future enabled by a proliferation of internet-of-things devices, including smart sensors, homes, and cities. Increasingly, embedding intelligence in such devices involves the use of →

internet-of-things devices deep neural networks storage and processing requirements quantization cost-constrained platforms

发现论文，激发创造

机器学习的硬件：挑战与机遇

本文讨论了如何在各种硬件设计级别上解决机器学习中遇到的挑战，主要包括机器学习、传感器数据、嵌入式处理、能源消耗和硬件设计。

Dec, 2016

硬件感知机器学习：建模与优化

本篇论文全面评估现有的面向硬件的深度学习模型建模和优化方法，提出几个值得探讨的研究方向，旨在让深度学习的应用对硬件系统和平台产生显著影响。

Sep, 2018

神经加速器的硬件 / 软件学习式协同设计

本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架，可以自动识别联合设计空间中的优化点，应用于各种神经模型，改善能量延迟产品的性能。

Oct, 2020

IoT 设备上实现深度学习的双向协同设计方法

本文提出一种底层深度神经网络模型设计策略和顶层 DNN 加速器设计流程的双向协同设计方法，通过在 IoT 设备上进行联合优化使得既能获得高 IoU 精度的 QoR 也能获得高 FPS 和高能效的 QoS。

May, 2019

用于粒子探测器边缘低延迟推断的深度神经网络自动异构量化

本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法，旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要，其中资源严格限制，需要一种纳秒级的推理和降低 50 倍的资源消耗。

Jun, 2020

移动设备上的深度学习：方法、系统和应用

本文概述了高效深度学习的方法、系统和应用，包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练，以及各种针对特定任务和空间 - 时间冗余的加速技术和系统设计。

Apr, 2022

嵌入式系统资源高效神经网络

本文总结了机器学习中的实际需求和挑战，重点介绍了深度神经网络的三种资源效率技术：量化神经网络，网络剪枝和结构效率，以及它们在诸如 CPU，GPU 和 FPGA 等嵌入式系统中的应用和实验结果。

Jan, 2020

神经形态硬件上机器学习工作量的高效部署

本文提供了一种将预先训练的深度神经网络 (DNNs) 转换成脉冲神经网络 (SNNs) 的通用指南，并介绍了一些在神经形态硬件上部署转换后的 SNNs 的技术，可显著改进其延迟，功耗和能耗。实验结果表明，与 Intel Neural Compute Stick 2 相比，使用我们的 SNN 改进技术， Intel 的神经形态处理器 Loihi 在测试的图像分类任务中功耗降低了最多 27 倍，能耗降低了最多 5 倍。

Oct, 2022

面向协作智能友好的深度学习架构

本文提出了一种新的协作智能友好型架构，通过将移动设备上计算的中间特征卸载到云端以降低需要发送到云端的数据量，使得在 ResNet-50 模型上，相比现有的云端计算方法，端到端延迟和移动能耗分别平均提高了 53 倍和 68 倍，而精度损失不到 2%。

Feb, 2019

基于设计自动化的快速、轻量化和高效的深度学习模型：一项调查

该研究综述了针对边缘计算的深度学习模型设计自动化技术，包括自动神经架构搜索、自动模型压缩和联合自动设计和压缩，并提出了未来研究的方向。

Aug, 2022