通过混合梯度计算训练数字绑定的模拟模块
在嵌入式FPGA中,通过混合量化方案加速极低比特宽度神经网络(ELB-NN),提出了一种设计流程,既涵盖了网络的训练,也包含了基于FPGA的网络部署,从而方便设计者探索设计空间,简化网络精度和计算效率之间的权衡,巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器,实现高达10.3 TOPS的高性能,每瓦分类达到325.3张图像。在文献中,我们比较了GPU或其他FPGA实现,结果显示出目前最省能的解决方案。
Jul, 2018
本文提出了一种名为AnalogNAS的自动化DNN设计框架,目标是部署在模拟内存计算推理加速器上,通过大量的硬件模拟,展示AnalogNAS在各种TinyML任务上的性能,以及在64核IMC芯片上实现的模型较SOTA模型具有更高的准确性。
May, 2023
通过利用模拟域基于频率的张量变换,本文提出了一种能够实现能耗高效的频率域神经网络加速方法,包括边缘处理、频域模型压缩、数组微架构和能效提升等关键技术。
Sep, 2023
该研究论文介绍了平衡传播在训练变分自编码器中的应用,利用对称的 Hopfield 网络结构,提出使用一种模型兼作编码器和解码器,可有效减少 VAE 实施所需芯片尺寸,为更高效的模拟硬件配置铺平了道路。
Nov, 2023
能源基学习算法、对比学习、平衡传播、耦合学习和深度卷积Hopfield网络是此研究的五个关键词。通过将这些学习算法应用于五个视觉任务,该研究发现负扰动优于正扰动,其中以使用两个反向扰动的中心化平衡传播算法为最佳性能算法。此外,研究在这五个数据集上建立了最佳结果并提高了速度。
Dec, 2023
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低39%,平均精度损失为1.7%。
Dec, 2023
我们展示了在大规模训练中,与一阶方法相比,具有更好收敛性质的二阶训练方法很少被使用,可能是由于计算开销过大。然而,我们通过使用适当的硬件设备,证明了某些参数区间内,自然梯度下降(NGD)这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复杂度。我们提出了一种新的混合数字-模拟算法用于神经网络训练,该算法在某些参数范围内等效于NGD,但避免了解线性系统代价昂贵的求解。我们的算法利用了模拟系统在热力学平衡下的性质,因此需要模拟热力学计算机。在混合数字-模拟循环中进行训练,梯度和费舍尔信息矩阵(或任何正定曲率矩阵)在给定的时间间隔内计算,同时进行模拟动力学。在分类任务和语言模型微调任务上,我们通过数值实验证明了这种方法相对于最先进的数字一阶和二阶训练方法的优越性。
May, 2024
基于模拟设备的梯度训练是一种能耗更低的人工智能解决方案,该论文通过研究模拟加速器上的梯度训练,提出了一个理论基础,并介绍了一种名为Tiki-Taka的启发式模拟算法,该算法能够快速收敛到关键点,消除了渐近误差。
Jun, 2024
本研究对八种不同的类比深度学习方法在多个关键参数上进行了全面的评估和说明,包括达到的准确性水平、应用领域、算法进步、计算速度以及能量效率和功耗的考虑。我们还通过对不同类比深度学习方法实现的神经网络实验的比较性能和当前限制的分析,发现类比深度学习在未来的消费级应用具有巨大潜力,但在可扩展性方面仍有很长的路要走。大多数当前的实现更多是概念验证,尚不能实际应用于大规模模型。
Jun, 2024
基于横向栅构建的内存计算是一种应用于深度神经网络硬件加速的有前景的平台,然而能耗和延迟主要由外围模拟数字转换器的巨大开销所决定,为了解决该问题,本文提出了实现数组级部分和的随机处理,借助旋转轨道磁隧道结的概率性切换,该处理方式消除了昂贵的模拟数字转换器,从而在能耗和面积效率上取得了显著改进。
Jul, 2024