基于深度神经网络进行定制硬件逼近: 过去和未来
本文旨在加速深度卷积神经网络的测试时间计算,通过最小化非线性响应的重建误差,附加一种低秩约束,以帮助降低过滤器的复杂度,该算法可以减小多层输入的叠加误差并提高模型精度,可将ImageNet的训练速度提升4倍,精度提高4.7%。
Nov, 2014
本文提出Ristretto,一种模型逼近框架,可以使用固定点算术和表示来压缩卷积和全连接层的权重和输出,并且可以通过微调将结果定制到具体的硬件设备,成功地将CaffeNet和SqueezeNet压缩到8位。
Apr, 2016
本文介绍了一个快速自动化的CNN近似框架Ristretto,其可以将CaffeNet和SqueezeNet压缩到8位,以此实现硬件加速,从而减少运行时间和功耗。
May, 2016
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
本研究旨在提出一种编译器,通过 Torch7 模型描述文件生成机器级指令,并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake,优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面,以达到生成的指令的性能与手动优化代码相当,并有效地执行 AlexNet 和 ResNet18 推理任务。
Aug, 2017
本研究提出了一种新的压缩范式:DepthShrinker,可通过将现有深度神经网络的基本构建块缩小为具有更改进的硬件利用率的密集块来开发硬件友好的紧凑网络,从而提高硬件效率并维持模型准确性,DepthShrinker框架能够提供优于当今最先进的高效DNN和压缩技术的硬件友好的紧凑网络
Jun, 2022
本文通过开源框架ApproxTrain,使用模拟的近似乘法器评估了使用近似乘法器的深度神经网络(DNN)培训的收敛性和准确性,论证了这种方法的资源效率和GPU加速优势。
Sep, 2022
研究表明,近似计算方法在深度学习中具有巨大潜力,尤其适用于受电源预算限制的便携设备的推理任务,但由于缺乏针对近似计算的训练方法,其潜力尚未得到充分发挥。本文提出了近似硬件训练的方法,并演示了这些方法如何专门针对近似硬件进行训练,并提出了加速训练过程的方法,加速率高达18倍。
Apr, 2023
通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。
Jul, 2024