PDPU:用于深度学习应用的开源 Posit 点积单元
该论文提出一种基于 posit 数值格式的 DNN 体系结构及可调精度 FPGA 软核,通过实验结果表明,该体系结构在 8 位或以下的 posit 数值格式下,性能和精度均优于传统的固定位数和浮点数位数格式,提示该方法能够在减小计算资源的同时提高 DNN 的性能。
Dec, 2018
本篇论文提出了利用抵抗处理单元(RPU)设备加速深度神经网络(DNN)训练的概念,通过使用 RPU 设备,可以在更短的时间内,使用更少的功耗来完成大规模 DNN 的训练,并且可以实现比现有技术高达 30000 倍的加速因子和 84000 GigaOps /s/ W 的功率效率。
Mar, 2016
本文研究了在 DNNs 中将传统的 MAC 操作替换为使用 product quantization 时的计算和内存占用情况,采用不同的 PQ 设置和训练方法,设计了第一个定制的硬件加速器来评估运行 PQ 模型的速度和效率,发现与高度优化的传统 DNN 加速器相比,PQ 配置能够使 ResNet20 的面积性能提高 40% 至 104%,且硬件性能优于近期的 PQ 解决方案 4 倍,只有 0.6% 的精度降低,为 PQ 模型的更广泛采用铺平了道路。
May, 2023
应用混合精度神经网络降低功耗的数字预失真(DPD)技术,在无线电系统中实现了高效的信号线性化、降低能耗,并取得了与 32-bit 浮点精度 DPDs 相当的性能指标。
Apr, 2024
本研究介绍了一种基于对数正数(LP)的自适应、硬件友好的数据类型,通过参数化 LP 位域,动态适应深度神经网络(DNN)的权重 / 激活分布。我们还开发了一种基于遗传算法的 LP 量化(LPQ)框架,通过新颖的全局 - 局部对比目标减小量化与全精度模型之间的表示差异。此外,我们设计了一个统一的混合精度 LP 加速器(LPA)体系架构,其中计算数据路径中的处理元件(PE)采用 LP。我们的算法 - 硬件协同设计在各种 CNN 和 ViT 模型上实现了平均小于 1% 的 top-1 准确率下降,与使用不同数据类型的最先进量化加速器相比,性能单位面积提高了约 2 倍,并提高了 2.2 倍的能源效率。
Mar, 2024
该研究论文提出了一种混合计算神经网络处理方法,通过低精度的 Posit 和低精度定点 FixP 数值系统,为边缘应用提供支持,并利用启发式方法分析权重的重要性和量化误差,为不同权重分配正确的数值系统。通过在视觉和语言模型上的广泛评估,结果显示混合计算的准确性平均比 FixP 高约 1.5%,只需 0.19% 的能量开销。
Dec, 2023
提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器,通过改进硬件资源利用率,显著提高推断吞吐量和能效,并实现 16.5 倍更高的设备上学习的浮点吞吐量。
Sep, 2023
提出一种新的架构 Pragmatic (PRA),它利用卷积层中无效计算的源头,通过混合位并行乘数 / 位串行乘数处理单元和对乘数表示的明确性(去除了产生为零项的乘积)来提高深度神经网络(DNNs)的执行效率和能量效率。
Oct, 2016
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022