利用抗阻交叉点器件加速深度神经网络训练
本文提出一种在训练阶段复制神经网络加速器 (NNA) 运算符以解决低精度推理引起的性能损失,以此减少用户感知的延迟,并在 270K 小时的英语数据上显示了 5-7%的引擎延迟的改善,节省了高达 10%的句子错误率的降低。
May, 2023
该研究详细分析了使用模拟电阻式存储器(ReRAM)跨栅执行关键矩阵操作以提高加速器性能,并与使用数字 ReRAM 和 SRAM 操作的相关设计进行了比较。结果显示,与类似的数字版加速器块相比,该模拟加速器具有能效更高的优势,并且可以成为进一步架构研究的基础。
Jul, 2017
通过硬件软件的协同设计,我们提出了基于随机电阻存储器的深度极端点学习机,实现了高效统一的点集分析,比传统系统节省了大量能源并降低了训练成本,为各种数据模态和任务提供了节能高效的边缘人工智能解决方案。
Dec, 2023
最近在图像数据处理方面的研究进展表明,通过机器学习,尤其是深度神经网络(DNNs)的使用,可以通过数据驱动的人工智能为辐射探测器和成像设备提供新的优化和性能增强方案。我们概述了光子源的数据生成、基于深度学习的图像处理方法以及深度学习加速的硬件解决方案。目前大多数现有的深度学习方法是离线训练的,通常需要大量的计算资源。然而,一旦训练完成,DNNs 可以实现快速推理速度,并且可以部署到边缘设备上。边缘计算是一种新趋势,它具有较低的能量消耗(数百瓦或更少)和实时分析能力。虽然以往通常用于边缘计算的基于电子的硬件加速器(从中央处理器(CPU)到应用特定集成电路(ASICs)的通用目的处理器)正不断接近性能极限,在延迟、能量消耗和其他物理约束方面存在限制。这些限制催生了下一代模拟神经形态硬件平台,如光学神经网络(ONNs),用于高并行、低延迟和低能量计算,以提高深度学习加速。
Nov, 2023
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍,TOPS/Watt 比 GPU 提高近 70 倍,比 CPU 提高 200 倍。
Apr, 2017
提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器,通过改进硬件资源利用率,显著提高推断吞吐量和能效,并实现 16.5 倍更高的设备上学习的浮点吞吐量。
Sep, 2023
该研究提出了一个名为 PDPU 的开源端点积处理器单元,旨在促进资源高效和高吞吐量的端点积硬件实现,通过优化后的硬件架构和流水线设计,可以显著降低面积、延迟和功耗,具有成为基于端点积加速器的计算核心的巨大潜力。
Feb, 2023
研究通过应用 Gradient Accumulation、Automatic Mixed Precision 和 Pin Memory 等方法来加速深度神经网络的训练过程,并证明这些方法能够显著提高训练效率,为深度学习过程的改进提供重要见解。
Dec, 2023
本研究对商业 AI / ML 加速器进行了初步评估和比较,通过对常见 DNN 运算符和其他 AI / ML 工作负载的一系列基准评估,揭示了数据流架构相对传统处理器设计的优势和性能权衡,并为研究原型的设计和性能期望提供了有价值的参考,从而促进为不断发展的 AI / ML 应用领域量身定制的下一代硬件加速器的发展。
Nov, 2023
通过使用阻性处理单元(RPU)架构学习深度神经网络(DNN)可以实现高效能的能源利用,因为它利用专用的神经形态硬件和在内存计算中进行随机加权更新。我们提出了一种脉冲列设计补偿技术来降低由非理想程序时间和网络随机方差引起的总误差,并在 MNIST 和 Fashion-MNIST 数据集上模拟了基于非理想程序时间的 CTF,发现较大的脉冲数(~1000)时,学习性能接近理想(软件级)训练水平,而较小的脉冲数(<500)时,学习性能取决于脉冲间隔(t_gap)。此外,通过消融研究,我们确定了改进学习性能的关键因素是权重更新的噪声水平较低。因此,我们的研究旨在补偿由非理想程序时间引起的误差,并为 CTF 基础的 RPU 标准化脉冲长度(N)和脉冲间隔(t_gap)规格以实现准确的芯片内系统级训练。
Feb, 2024