- PEANO-ViT:在视觉转换器中对非线性的功耗有效近似
PEANO-ViT 通过引入无除法技术简化了层归一化层的实现,同时提供了多尺度除法策略以消除 softmax 层的除法操作,并通过分段线性逼近来绕过与 GELU 相关的计算密集型操作,从而在减少 DSP、LUT 和寄存器数量的同时,实现了 - 使用 LLM(例如 ChatGPT)设计和实现 RISC 处理器:执行、挑战和局限性
使用大型语言模型(LLM)生成代码的可行性进行了讨论,应用于设计 RISC。通过解析、标记化、编码、注意机制、对生成代码的令牌进行采样和迭代等相关步骤进行了回顾。通过测试平台和 FPGA 板上的硬件实现对 RISC 组件的生成代码进行了验证 - 优化图表示以用于基于事件视觉的图卷积网络的硬件实现
本文介绍了一个从事件相机数据流中生成图形的硬件实现过程,通过简化图形表示和使用值的缩放和量化的方法来改进图像检测性能,并提出了基于图形生成模块的硬件架构。
- Modular DFR: 增强设计灵活性的数字延迟反馈水库模型
该论文提出了一种适用于完全数字实现的新型模块化延迟反馈储层模型,减少了超参数数量,提供了非线性函数选择的灵活性,从而提高了准确性并降低了功耗。通过采用不同的非线性函数,实现了 10 倍的功耗降低和 5.3 倍的吞吐量提升,同时保持相等或更好 - KDD硬件库中的布尔权重优化的收敛和比例缩放
本研究针对神经网络的硬件实现,提出了一种基于坐标下降的优化策略,通过对神经网络幅度统计及权重更新规则的优化,有效提高神经网络的收敛速度和效率。
- 面向 FPGAs 和 ASICs 的 Hessian 感知量化神经网络的端对端协同设计
利用 Hessian-aware quantization (HAWQ) 来量化神经网络(NNs),Quantized Open Neural Network Exchange(QONNX)中间表示和 hls4ml 到 FPGA 和 ASI - PDPU:用于深度学习应用的开源 Posit 点积单元
该研究提出了一个名为 PDPU 的开源端点积处理器单元,旨在促进资源高效和高吞吐量的端点积硬件实现,通过优化后的硬件架构和流水线设计,可以显著降低面积、延迟和功耗,具有成为基于端点积加速器的计算核心的巨大潜力。
- HeatViT:面向视觉 Transformer 的硬件高效自适应 Token 剪枝
本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT,以在嵌入式 FPGA 上实现高效而准确的 ViT 加速,通过显著重复利用现有硬件组件来实现标记选择器,使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块,使模型在硬件 - 脉冲神经网络的硬件实现与挑战:一项调查
该文概述了脉冲神经网络及其硬件实现的现状和趋势,介绍了在算法选择和训练机制方面的工作,描述了利用硬件提高该算法特性的策略以及相关的优点和挑战。
- PCNN: 面向 CNN 加速器优化的基于模式的细粒度正则剪枝
PCNN 是一种细粒度 1D 修剪模型的技术,使用 SPM 编码 PCNN 中的稀疏性,实现在硬件中高效应用,并在 VGG-16 和 ResNet-18 上实现 8.4 倍的压缩率和仅 0.2% 的精度损失,同时在 55nm 工艺中实现了高 - 关于资源受限硬件平台的神经架构搜索
提出了一种新的框架,用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上,该框架使用 FPGAs 来实现和测试设计并在 CIFAR10 任务中提高了 18%至 68%的准确性。
- ICLR学习循环二 / 三元权重
该论文提出了一种在训练阶段就能够学习二进制和三进制权重的方法,可以用于硬件实现循环神经网络,以达到减少硅面积和功耗的目的。使用该方法可以在运行时使用二进制 / 三进制权重,从而在 ASIC 平台上实现长短时记忆神经网络比全精度实现要高出 1 - 物理库容计算的最新进展:综述
该综述通过将物理沉积池按类型分类,概述了近期物理沉积池计算的进展,并讨论了与物理沉积池计算相关的当前问题和前景,以进一步扩展其实际应用和开发下一代机器学习系统。
- NIPS权重容量约束下的量化神经网络设计
通过改变神经网络的结构和权重的位数,本文比较了硬件实现中神经网络规模和权重量化对网络性能的影响,提出了在硬件资源有限的情况下,指导网络规模和权重精度平衡的有效压缩比。
- 深度神经网络在量化下的鲁棒性
本研究分析了前馈深度神经网络 (FFDNN) 和卷积神经网络 (CNN) 的重训练对量化网络的影响,通过控制网络复杂度,发现高度复杂的 DNN 能够吸收严格的重量化影响并通过重训练提高性能,在硬件资源受限时提示了网络大小和精度之间的折衷。
- 基于 FPGA 的循环神经网络硬件实现
本文利用 Xilinx 公司的可编程逻辑器件 Zynq 7020 FPGA,实现了基于 Long-Short Term Memory(LSTM)的循环神经网络(RNN)硬件加速,并测试了该实现在字符级语言模型上的表现。结果表明,相较于 Zy