Xilinx 深度学习处理单元在中子辐照下的评估
通过大规模的 RTL 级故障注入以及选择性保护硬件结构,本研究对 Arm 的 Ethos-U55 进行可靠性研究,展示了满足 ASIL-D 安全标准的优化配置,并在仅增加 38% 面积开销的情况下实现安全性。
Apr, 2024
本篇论文提出了利用抵抗处理单元(RPU)设备加速深度神经网络(DNN)训练的概念,通过使用 RPU 设备,可以在更短的时间内,使用更少的功耗来完成大规模 DNN 的训练,并且可以实现比现有技术高达 30000 倍的加速因子和 84000 GigaOps /s/ W 的功率效率。
Mar, 2016
基于低功耗的内嵌 FPGA 提出的分布式系统,可用于边缘计算应用,通过分布式调度优化深度学习负载以获得最佳性能,同时可以在多种配置下评估和管理神经网络工作负载。
May, 2023
本文提出了一种可扩展的加速器体系结构 DLAU,通过在 FPGA 上实现,使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗,实验结果表明 DLAU 加速器与 Intel Core2 处理器相比,速度提高了 36.1 倍,功耗为 234mW。
May, 2016
本文研究了 DNN 加速器的逼近计算和容错能力,提出使用逼近算术电路代替昂贵的故障注入检测,并开发了 GPU 模拟方法,同时通过网络故障的传播和掩蔽来实现精细化容错分析
May, 2023
本文提出一种针对深度神经网络在训练和模型设计时提高其可靠性的解决方案,旨在解决硬件故障导致对模型预测出现错误等问题。在研究中通过 DNN 重新设计、重新训练等方式,提出三种零附加成本的解决方案,可以在一定程度上提高 DNNs 对于瞬态故障的可靠性,并通过广泛的消融研究量化了每种硬化组件的性能提升。
May, 2022
通过探索 Intelligence Processing Units (IPUs) 的优化技巧以及将专用模型迁移到 IPU 平台,本研究表明 IPU 是机器学习、材料科学和电池研究领域中 GPU 的一种可行加速器替代方案。在多次充放电循环中,本研究还展示了 IPU 上进行有效电导率预测任务时使用卷积神经网络 (CNN) 架构模型与 GPU 执行相当的性能,并通过基准测试发现 Graphcore 的 Bow IPU 相较于 Colossus IPU 有显著的性能改善。
Apr, 2024
提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器,通过改进硬件资源利用率,显著提高推断吞吐量和能效,并实现 16.5 倍更高的设备上学习的浮点吞吐量。
Sep, 2023
该论文提出一种基于 posit 数值格式的 DNN 体系结构及可调精度 FPGA 软核,通过实验结果表明,该体系结构在 8 位或以下的 posit 数值格式下,性能和精度均优于传统的固定位数和浮点数位数格式,提示该方法能够在减小计算资源的同时提高 DNN 的性能。
Dec, 2018
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017