HEANA: 一种用于能效高的卷积神经网络推理的混合时幅模拟光学加速器
本文提出了一种引入可重构性的基于 Photonic Microring Resonator 的 CNN 加速器,以动态最大化加速器硬件组件与处理使用硬件组件的 CNN 张量之间的大小兼容性,从而提高并行性、灵活性、效率、速度和整体能效,并在四个现代 CNN 的推理中对其进行了评估,结果表明其对于先前工作中的 MRR 加速器在 FPS 和 FPS/W 方面分别提高了 1.8 倍和 1.5 倍。
Jul, 2022
本研究设计了一种基于光学随机计算和激光环共振器技术的神经网络加速器,该加速器在高精度量化的卷积神经网络推理中能提供高达 66.5 倍的效率提升,并具有非常高的能效比。
Feb, 2023
该研究详细分析了使用模拟电阻式存储器(ReRAM)跨栅执行关键矩阵操作以提高加速器性能,并与使用数字 ReRAM 和 SRAM 操作的相关设计进行了比较。结果显示,与类似的数字版加速器块相比,该模拟加速器具有能效更高的优势,并且可以成为进一步架构研究的基础。
Jul, 2017
这篇论文研究了基于微环共振器 (MRR) 的模拟光子结构,在深度神经网络中加速通用矩阵乘法 (GEMM) 并具有出色的吞吐量和能效。作者通过分析了调制 - 聚合 - 分拆 - 加权 (MASW)、聚合 - 分拆 - 调制 - 加权 (ASMW) 和分拆 - 调制 - 加权 - 聚合 (SMWA) 的三种不同调制顺序,发现这些组织在电路级的串扰噪声和光信号损失以及系统级的吞吐量和能量区域能够带来不同程度的影响。评估结果显示,相比于 ASMW 和 MASW,SMWA 组织在平均下达到了分别多达 4.4 倍、5 倍和 5.2 倍的吞吐量、能效和面积能量效率提升。
Feb, 2024
本文提出一种名为 TIMELY 的创新性处理内存加速器,通过采用模拟数据局部性、时域接口和仅一次输入读取的映射方法,最大限度地提高了能效,并在能效、计算密度和吞吐量上优于已有的 R$^2$PIM 加速器。
May, 2020
该研究提出并评估了一种用于神经网络加速的二进制启用体系结构(BEANNA),该体系结构采用 16x16 systolic array 矩阵乘法器和可同时处理浮点数和二进制乘加的处理单元。该体系结构可以在高精度浮点数和二进制网络层之间无缝切换,并在混合网络上得到了显著的加速和能耗和内存降低。
Aug, 2021
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在 1.2V 下实现 1510 GOp/s 的运算,且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
近年来,硅光子学计算作为深度神经网络(DNN)的一种有希望的替代方案崭露头角。本文提出了 PhotoHDC,这是第一个用于 HDC 训练和推断的电光子加速器,支持基本的、记录的和图形编码方案,并通过评估常见数据集显示,我们的加速器在实现 HDC 训练和推断方面可以达到比最先进的电光子 DNN 加速器低两到五个数量级的能量延时积,而且还比基于 CiM 的加速器低四个数量级的能量延时积。
Nov, 2023
光子计算在加速计算密集型人工智能 (AI) 工作负载方面已经成为一种有前途的解决方案,在资源有限、延迟敏感的边缘计算环境中,具有无与伦比的速度和能量效率。然而,现场噪声和环境变化给模拟光子张量加速器的部署带来了可靠性挑战。本文首次提出了一种轻量级的动态芯片内纠正框架 (DOCTOR),针对时间漂移噪声提供自适应的、就地校准的准确恢复。DOCTOR 框架通过自适应探测智能监视芯片状态,并在必要时进行快速的就地、无训练的校准来恢复准确性。我们还提出了一种基于变异感知的架构重映射策略,以避免在有噪声的设备上执行关键任务。大量实验表明,与现有芯片内训练方法相比,我们提出的框架可以在漂移变化下保证持续性能,在准确性上提高 34%,开销降低 2-3 个量级。
Mar, 2024
Mirage 是一种基于残留数系统(RNS)的光子深度神经网络(DNN)训练加速器,通过将 RNS 和光子学相结合,提供高能效、高精度且能够成功训练与 FP32 训练相媲美的 DNNs,相比系统阵列,平均可实现超过 23.8 倍的更快训练速度、32.1 倍的更低能耗与相当或更好的效率 - 功耗比(EDP)在等能端景下,以及 42.8 倍的更低功率消耗在等面积场景下。
Nov, 2023