新型CMOS高度并行、低功耗多芯片神经网络加速器的共同设计

Sep, 2024

新型CMOS高度并行、低功耗多芯片神经网络加速器的共同设计

Co-design of a novel CMOS highly parallel, low-power, multi-chip neural network accelerator

W Hokenmaier, R Jurasek, E Bowen, R Granger, D Odom

TL;DR本文解决了边缘设备缺乏超低功耗、高性能芯片的问题，提出了一种新型的低功耗ASIC AI处理器NV-1，通过非冯·诺依曼架构显著提高了并行处理能力和能效。研究结果表明，该设备在实际应用中表现出色，具有广泛的潜在影响，能够推动边缘计算设备的普及。

Abstract

Why do security cameras, sensors, and siri use cloud servers instead of on-board computation? The lack of very-Low-power, high-performance chips greatly limits the ability to field untethered edge devices. We present the NV-1, a new →

发现论文，激发创造

YodaNN: 超低功耗二进制卷积神经网络加速架构

本文介绍了一种用于二进制权重卷积神经网络的加速器，能够在1.2V下实现1510 GOp/s的运算，且在0.6V下消耗895 μW的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。

Jun, 2016

一种可扩展的多核架构，具有异构存储器结构的动态神经形态异步处理器（DYNAPs）

本研究提出了一种将分层和网格路由策略与异构存储器结构相结合的新型路由方法，旨在最小化存储要求和延迟，同时通过参数配置最大化编程灵活性，从而支持广泛的基于事件的神经网络体系结构。通过实现原型多核神经形态处理器芯片并将其应用于快速对动态视觉传感器(DVS)中闪现的视觉符号进行实时分类的卷积神经网络，验证了所提出的方案。

Aug, 2017

在嵌入式FPGA中加速混合极低位宽神经网络的设计流程

在嵌入式FPGA中，通过混合量化方案加速极低比特宽度神经网络（ELB-NN），提出了一种设计流程，既涵盖了网络的训练，也包含了基于FPGA的网络部署，从而方便设计者探索设计空间，简化网络精度和计算效率之间的权衡，巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器，实现高达10.3 TOPS的高性能，每瓦分类达到325.3张图像。在文献中，我们比较了GPU或其他FPGA实现，结果显示出目前最省能的解决方案。

Jul, 2018

面向内存计算神经加速器的器件-电路-体系结构联合探索

本研究提出跨层设计的NACIM框架，将计算在内存中的架构和硬件设计相结合，同时考虑设备差异和电路拓扑，旨在找到具有高网络精度和最大化硬件效率的最有效的神经架构，在存在设备变异的情况下准确率损失最小，能效高达16.3 TOPs/W，相比不考虑设备变异的现有架构NACIM能够降低76.44%。

Oct, 2019

神经网络结构和异质ASIC加速器设计的共同探索，针对多任务的目标

该论文提出了一种名为NASAIC的框架来同时确定多个DNN架构和相关的异构ASIC加速器设计，以满足设计规范并最大限度地提高准确性。

Feb, 2020

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率10-20倍。

Aug, 2021

边缘实时视觉处理的超低功耗TinyML系统

通过在芯片上存储全部功能和权重，完全消除了离线内存访问的延迟和能耗，并提出了一种应用特定的指令集，以实现敏捷开发和快速部署。实验表明，基于该模型、NCP和指令集的TinyML系统在实现物体检测和识别时，取得了可观的准确度，并实现了纪录级的超低功耗，只有160mW。

Jul, 2022

神经形态硬件上机器学习工作量的高效部署

本文提供了一种将预先训练的深度神经网络(DNNs) 转换成脉冲神经网络(SNNs)的通用指南，并介绍了一些在神经形态硬件上部署转换后的 SNNs 的技术，可显著改进其延迟，功耗和能耗。实验结果表明，与Intel Neural Compute Stick 2相比，使用我们的SNN改进技术， Intel 的神经形态处理器Loihi 在测试的图像分类任务中功耗降低了最多27倍，能耗降低了最多5倍。

Oct, 2022

适用于超低功耗边缘系统的灵活且全量化的超轻量级TinyissimoYOLO

本文介绍了一种超轻量级物体检测网络TinyissimoYOLO，旨在为功耗为几毫瓦的边缘系统提供高度灵活且完全量化的解决方案，实验结果表明，该模型在不同参数下都表现出较好的性能，并且在多种超低功耗平台上展现出更高的能效和更低的推理延迟。

Jul, 2023

当内存计算遇到脉冲神经网络：设备-电路-系统与算法的协同设计视角

本研究探讨了脉冲神经网络 (SNNs) 与模拟内存计算 (IMC) 之间的结合，针对低功耗边缘计算环境的巨大潜力展开讨论。通过深入分析设备、电路和系统层面，识别了由设备限制引起的关键系统瓶颈，并提出了相应的算法-硬件协同设计技术以优化性能。

Aug, 2024