使用 AutoML 实现加速器感知的神经网络设计
本文介绍 Edge TPUs 的微体系结构细节、它们在不同计算生态中的性能表现以及开发高精度机器学习模型来评估加速器主要性能指标的努力,并讨论了 Edge TPU 加速器在不同结构的 CNN 上的性能表现。
Feb, 2021
本研究论文主要探讨了谷歌开发的专门用于深度学习的 Tensor Processing Units(TPUs)在边缘计算中的性能表现,研究了 TPUs 的设计、总体架构、编译技术和支持框架,并对云端和边缘 TPU 的性能进行了比较分析,结果显示 TPUs 在云端和边缘计算中都能显著提高性能。此外,文章还提到了在边缘 TPU 部署更多架构的需求,以及在边缘计算中进行更稳健比较的需求。
Sep, 2023
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet,可将边缘加速器的能源消耗降低高达 2 倍。
Feb, 2021
本文介绍了如何利用手机上普遍存在的 GPU 加速器,在 Android 和 iOS 设备上实现深度神经网络的实时推断,并将其集成到开源项目 TensorFlow Lite 中。
Jul, 2019
本研究聚焦于实时人脸表情识别(FER)系统作为社会机器人等各种现实世界应用的重要组成部分。我们调查了两种用于边缘部署 FER 机器学习(ML)模型的硬件选择:神经形态硬件和边缘 AI 加速器。我们的研究包括详尽的实验,对比分析了 Intel Loihi 神经形态处理器与四种不同的边缘平台:Raspberry Pi-4、Intel Neural Compute Stick(NSC)、Jetson Nano 和 Coral TPU。实验结果表明,Loihi 与边缘加速器相比,能够实现功耗降低约两个数量级,以及能耗节约约一个数量级。这些功耗和能耗的降低是在维持神经形态解决方案与边缘加速器相当准确性的情况下实现的,而且都在实时延迟要求内。
Jan, 2024
该研究综述了针对边缘计算的深度学习模型设计自动化技术,包括自动神经架构搜索、自动模型压缩和联合自动设计和压缩,并提出了未来研究的方向。
Aug, 2022
本文提出了一种将经过预训练的模型解析为 C 源代码并利用 MicroTVM 在边缘设备上执行的代码生成器。利用普适模块加速器接口(UMA),将特定的计算密集型操作轻松卸载到专用加速器上,而其他操作则在 CPU 核心上进行。 最后,作者使用 ARM Cortex M4F 核心进行了手势识别实验。
Apr, 2023
自动驾驶汽车中的计算平台通过机器学习模型记录大量传感器数据,并进行决策以确保车辆的安全运行。传统的计算机处理器缺乏感知和机器视觉要求的能力和灵活性。硬件加速器是专用的协处理器,可帮助自动驾驶汽车满足更高级别自主性的性能要求。本文概述了机器学习加速器的用途,特别是在自动驾驶汽车的机器视觉方面。我们为研究人员和实践者提供建议,并突出了该新兴领域的持续和未来研究的轨迹。
Aug, 2023
本文描述了如何将光计算和通信集成到 2.5D 芯片平台中,从而驱动一类新型的可持续扩展的机器学习硬件加速器,以加速新兴的机器学习工作负载,通过跨层设计、硬件 / 软件协同设计和硅光子设计制备。
Jan, 2023