新型CMOS高度并行、低功耗多芯片神经网络加速器的共同设计
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在1.2V下实现1510 GOp/s的运算,且在0.6V下消耗895 μW的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
本研究提出了一种将分层和网格路由策略与异构存储器结构相结合的新型路由方法,旨在最小化存储要求和延迟,同时通过参数配置最大化编程灵活性,从而支持广泛的基于事件的神经网络体系结构。通过实现原型多核神经形态处理器芯片并将其应用于快速对动态视觉传感器(DVS)中闪现的视觉符号进行实时分类的卷积神经网络,验证了所提出的方案。
Aug, 2017
在嵌入式FPGA中,通过混合量化方案加速极低比特宽度神经网络(ELB-NN),提出了一种设计流程,既涵盖了网络的训练,也包含了基于FPGA的网络部署,从而方便设计者探索设计空间,简化网络精度和计算效率之间的权衡,巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器,实现高达10.3 TOPS的高性能,每瓦分类达到325.3张图像。在文献中,我们比较了GPU或其他FPGA实现,结果显示出目前最省能的解决方案。
Jul, 2018
本研究提出跨层设计的NACIM框架,将计算在内存中的架构和硬件设计相结合,同时考虑设备差异和电路拓扑,旨在找到具有高网络精度和最大化硬件效率的最有效的神经架构,在存在设备变异的情况下准确率损失最小,能效高达16.3 TOPs/W,相比不考虑设备变异的现有架构NACIM能够降低76.44%。
Oct, 2019
该论文提出了一种名为NASAIC的框架来同时确定多个DNN架构和相关的异构ASIC加速器设计,以满足设计规范并最大限度地提高准确性。
Feb, 2020
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率10-20倍。
Aug, 2021
通过在芯片上存储全部功能和权重,完全消除了离线内存访问的延迟和能耗,并提出了一种应用特定的指令集,以实现敏捷开发和快速部署。实验表明,基于该模型、NCP和指令集的TinyML系统在实现物体检测和识别时,取得了可观的准确度,并实现了纪录级的超低功耗,只有160mW。
Jul, 2022
本文提供了一种将预先训练的深度神经网络(DNNs) 转换成脉冲神经网络(SNNs)的通用指南,并介绍了一些在神经形态硬件上部署转换后的 SNNs 的技术,可显著改进其延迟,功耗和能耗。实验结果表明,与Intel Neural Compute Stick 2相比,使用我们的SNN改进技术, Intel 的神经形态处理器Loihi 在测试的图像分类任务中功耗降低了最多27倍,能耗降低了最多5倍。
Oct, 2022
本文介绍了一种超轻量级物体检测网络TinyissimoYOLO,旨在为功耗为几毫瓦的边缘系统提供高度灵活且完全量化的解决方案,实验结果表明,该模型在不同参数下都表现出较好的性能,并且在多种超低功耗平台上展现出更高的能效和更低的推理延迟。
Jul, 2023
本研究探讨了脉冲神经网络 (SNNs) 与模拟内存计算 (IMC) 之间的结合,针对低功耗边缘计算环境的巨大潜力展开讨论。通过深入分析设备、电路和系统层面,识别了由设备限制引起的关键系统瓶颈,并提出了相应的算法-硬件协同设计技术以优化性能。
Aug, 2024