一种可配置和高效的神经网络硬件加速器内存层次结构
本文提出了一种称为ConfuciuX的自主策略,它利用强化学习方法和遗传算法优化硬件资源配置,以实现DNN加速器的效率最大化,收敛速度比其他技术快4.7到24倍。
Sep, 2020
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的EfficientNet,可将边缘加速器的能源消耗降低高达2倍。
Feb, 2021
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率10-20倍。
Aug, 2021
基于深度神经网络的多加速器系统中,选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题,我们提出了一个名为MARS的新型映射框架,可以执行计算感知的加速器选择,并应用通信感知的分片策略来最大化并行性,实验证明,与基准相比,MARS可以平均减少32.2%的延迟,并且相对于对应的最先进方法,可以减少59.4%的异构模型的延迟。
Jul, 2023
本研究提出了一种名为HaX-CoNN的新方案,将并发执行的深度神经网络推理工作负载的层映射到系统级芯片内的多种异构加速器,以最小化内存争用并提升工作负载的延迟和总体吞吐量。实验结果表明,与最先进的方法相比,HaX-CoNN可将内存争用降低最多45%,延迟和总体吞吐量分别提高最多32%和29%。
Aug, 2023
通过一个名为COSMA的优化框架,我们能够在专用硬件加速器上为DNNs找到最佳的操作调度、内存分配和张量替换方式,从而最小化额外数据访问,同时通过分而治之的启发式方法可以将复杂DNNs的数据访问降低85%以上。
Nov, 2023
对受设备变异影响的CiM DNN加速器的最坏情况性能进行确定,并提出一种名为A-TRICE的新型最坏情况感知训练技术,通过对抗训练和噪声注入训练有效地改进最坏情况下的DNN准确性。
Dec, 2023
使用CiMNet框架,通过同时搜索最优子网络和硬件配置来创建下游任务准确性和执行指标(如延迟)的帕累托最优前沿,该框架对于CNN和Transformer系列的不同模型结构都展现了显著的效果。
Feb, 2024
本研究针对在资源受限的边缘设备上实现深度神经网络(DNN)面临的挑战,提出了一种自动生成快速性能模型的方法,以准确估算映射到加速器架构的DNN延迟。我们的关键发现是,该方法结合DNN硬件依赖图分析,显著加速了性能评估过程,相较于仿真结果,有效降低了平均绝对百分比误差(MAPE)。
Sep, 2024