PDPU：用于深度学习应用的开源 Posit 点积单元

Feb, 2023

PDPU：用于深度学习应用的开源 Posit 点积单元

PDPU: An Open-Source Posit Dot-Product Unit for Deep Learning Applications

Qiong Li, Chao Fang, Zhongfeng Wang

TL;DR该研究提出了一个名为 PDPU 的开源端点积处理器单元，旨在促进资源高效和高吞吐量的端点积硬件实现，通过优化后的硬件架构和流水线设计，可以显著降低面积、延迟和功耗，具有成为基于端点积加速器的计算核心的巨大潜力。

Abstract

posit has been a promising alternative to the IEEE-754 floating point format for deep learning applications due to its better trade-off between dynamic range and accuracy. However, →

posit deep learning dot-product hardware implementation computational efficiency

发现论文，激发创造

深度正子：使用正电子数系统的深度神经网络

该论文提出一种基于 posit 数值格式的 DNN 体系结构及可调精度 FPGA 软核，通过实验结果表明，该体系结构在 8 位或以下的 posit 数值格式下，性能和精度均优于传统的固定位数和浮点数位数格式，提示该方法能够在减小计算资源的同时提高 DNN 的性能。

Dec, 2018

利用抗阻交叉点器件加速深度神经网络训练

本篇论文提出了利用抵抗处理单元（RPU）设备加速深度神经网络（DNN）训练的概念，通过使用 RPU 设备，可以在更短的时间内，使用更少的功耗来完成大规模 DNN 的训练，并且可以实现比现有技术高达 30000 倍的加速因子和 84000 GigaOps /s/ W 的功率效率。

Mar, 2016

准确、无乘法的深度神经网络的硬件 - 软件协同设计

通过动态定点数编程，将深度神经网络（DNNs）从浮点数向量转换为 8 位定点数，从而实现低功耗和能耗，并增加分类准确性。

May, 2017

产品量化及其硬件加速

本文研究了在 DNNs 中将传统的 MAC 操作替换为使用 product quantization 时的计算和内存占用情况，采用不同的 PQ 设置和训练方法，设计了第一个定制的硬件加速器来评估运行 PQ 模型的速度和效率，发现与高度优化的传统 DNN 加速器相比，PQ 配置能够使 ResNet20 的面积性能提高 40% 至 104%，且硬件性能优于近期的 PQ 解决方案 4 倍，只有 0.6% 的精度降低，为 PQ 模型的更广泛采用铺平了道路。

May, 2023

MP-DPD: 低复杂度的混合精度神经网络用于宽带功率放大器的高能效数字预畸变

应用混合精度神经网络降低功耗的数字预失真（DPD）技术，在无线电系统中实现了高效的信号线性化、降低能耗，并取得了与 32-bit 浮点精度 DPDs 相当的性能指标。

Apr, 2024

面向高效 DNN 推理的分布感知对数 Posit 编码算法硬件协同设计

本研究介绍了一种基于对数正数（LP）的自适应、硬件友好的数据类型，通过参数化 LP 位域，动态适应深度神经网络（DNN）的权重 / 激活分布。我们还开发了一种基于遗传算法的 LP 量化（LPQ）框架，通过新颖的全局 - 局部对比目标减小量化与全精度模型之间的表示差异。此外，我们设计了一个统一的混合精度 LP 加速器（LPA）体系架构，其中计算数据路径中的处理元件（PE）采用 LP。我们的算法 - 硬件协同设计在各种 CNN 和 ViT 模型上实现了平均小于 1% 的 top-1 准确率下降，与使用不同数据类型的最先进量化加速器相比，性能单位面积提高了约 2 倍，并提高了 2.2 倍的能源效率。

Mar, 2024

边缘推断的低精度混合计算模型

该研究论文提出了一种混合计算神经网络处理方法，通过低精度的 Posit 和低精度定点 FixP 数值系统，为边缘应用提供支持，并利用启发式方法分析权重的重要性和量化误差，为不同权重分配正确的数值系统。通过在视觉和语言模型上的广泛评估，结果显示混合计算的准确性平均比 FixP 高约 1.5%，只需 0.19% 的能量开销。

Dec, 2023

一种具有极限边缘智能设备学习能力的精确可扩展 RISC-V DNN 处理器

提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器，通过改进硬件资源利用率，显著提高推断吞吐量和能效，并实现 16.5 倍更高的设备上学习的浮点吞吐量。

Sep, 2023

比特实用的深度神经网络计算

提出一种新的架构 Pragmatic (PRA)，它利用卷积层中无效计算的源头，通过混合位并行乘数 / 位串行乘数处理单元和对乘数表示的明确性（去除了产生为零项的乘积）来提高深度神经网络（DNNs）的执行效率和能量效率。

Oct, 2016

基于二次幂量化的神经网络能效硬件加速

通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算，以及基于对数量化的新型剪枝方法，本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重，实现了至少 $1.4x$ 的能效提升。

Sep, 2022