硬件感知机器学习:建模与优化
通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响,我们提供了一套指南,以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状,与具有类似参数但形状未经优化的模型相比,高效模型形状的吞吐量提高了多达 39%,同时保持准确性。
Jan, 2024
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等 AI 任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
该研究综述了针对边缘计算的深度学习模型设计自动化技术,包括自动神经架构搜索、自动模型压缩和联合自动设计和压缩,并提出了未来研究的方向。
Aug, 2022
介绍了深度学习效率问题和五个核心领域,包括建模技术、基础设施和硬件,并提出实验指南和代码,为实践者优化模型培训和部署提供支持。这是第一个详尽的调查,涵盖了从建模技术到硬件支持的模型效率领域,帮助实践者实现改进并装备他们以进行进一步的研究和实验。
Jun, 2021
在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增,在各种处理单元(如 CPU、GPU 和 NPU)的支持下,移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验,涵盖了各种深度学习模型、移动软件 / 硬件环境、工作负载模式和资源可用性,综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战,并确定了现有技术的局限性,并强调了跨层级优化的机会。
May, 2024
本文提供了一种将预先训练的深度神经网络 (DNNs) 转换成脉冲神经网络 (SNNs) 的通用指南,并介绍了一些在神经形态硬件上部署转换后的 SNNs 的技术,可显著改进其延迟,功耗和能耗。实验结果表明,与 Intel Neural Compute Stick 2 相比,使用我们的 SNN 改进技术, Intel 的神经形态处理器 Loihi 在测试的图像分类任务中功耗降低了最多 27 倍,能耗降低了最多 5 倍。
Oct, 2022
本文总结了机器学习中的实际需求和挑战,重点介绍了深度神经网络的三种资源效率技术:量化神经网络,网络剪枝和结构效率,以及它们在诸如 CPU,GPU 和 FPGA 等嵌入式系统中的应用和实验结果。
Jan, 2020
本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架,可以自动识别联合设计空间中的优化点,应用于各种神经模型,改善能量延迟产品的性能。
Oct, 2020