ConfuciuX:使用强化学习实现 DNN 加速器的自主硬件资源分配
本文研究了 DNN 加速器的逼近计算和容错能力,提出使用逼近算术电路代替昂贵的故障注入检测,并开发了 GPU 模拟方法,同时通过网络故障的传播和掩蔽来实现精细化容错分析
May, 2023
本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架,可以自动识别联合设计空间中的优化点,应用于各种神经模型,改善能量延迟产品的性能。
Oct, 2020
本研究提出了一种名为 HaX-CoNN 的新方案,将并发执行的深度神经网络推理工作负载的层映射到系统级芯片内的多种异构加速器,以最小化内存争用并提升工作负载的延迟和总体吞吐量。实验结果表明,与最先进的方法相比,HaX-CoNN 可将内存争用降低最多 45%,延迟和总体吞吐量分别提高最多 32% 和 29%。
Aug, 2023
通过采用强化学习技术,本文提出了一个解决编译机器学习程序中内存映射问题的新方法,称之为 mallocMuZero 算法,并将其应用在 ML 加速器上以缩短执行时间,表现优于目前的默认求解器。
May, 2023
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet,可将边缘加速器的能源消耗降低高达 2 倍。
Feb, 2021
采用深度强化学习方法,通过图神经网络模型实现网络资源的分配,该方法比现有的最佳启发式算法达到更高的接受率;即使在未适当训练的情况下,可以在规模比训练时大 $10^2$ 倍的数据中心网络中保持高性能。
Oct, 2022
本文介绍了一种图嵌入式的编码器 - 解码器框架,以实现在流处理中分配资源任务,同时确保工作负载平衡和通信最小化。采用深度强化学习方法,有效地学习和求解未知图的最优解,并在测试中表现优于 METIS 算法和基于 LSTM 的编码器 - 解码器模型约 70%。
Nov, 2019
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
本文提出了一个基于 FPGA 的 DNN 加速器设计框架 DeepAxe, 考虑了准确性、可靠性和硬件性能之间的平衡,通过功能逼近来减少硬件平台的计算负担,为目标资源利用要求提供了一组 Pareto 最优的 DNN 实现设计空间点。
Mar, 2023
通过一个名为 COSMA 的优化框架,我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式,从而最小化额外数据访问,同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。
Nov, 2023