SCAN-Edge:通过硬件感知进化搜索为多样化边缘设备寻找MobileNet速度混合网络
该研究提出了一种新颖的硬件和软件协同探索框架,用于高效的神经架构搜索。该框架同时探索体系结构搜索空间和硬件设计空间,旨在找到最佳的神经架构和硬件配置,以同时达到最大的测试精度和硬件效率。该方法通过强化学习控制器,可以在ImageNet数据集上实现比现有技术更高的吞吐量、节能和搜索效率
Jul, 2019
本文针对神经架构搜索中硬件多样性挑战和在广泛硬件上设计精确有效的卷积神经体系结构领域的挑战,提出了一种基于自动硬件感知搜索的两阶段搜索算法HURRICANE。在ImageNet上的实验结果表明,该算法在相同延迟限制下,优于现有的基于硬件感知神经架构搜索方法,并且发现的架构比当前最先进的高效模型具有更低的延迟和更高的准确性。
Oct, 2019
提出一种利用多硬件模型在多个部署硬件上达到最先进性能的神经架构设计方法,可以减少模型部署的成本,在单个硬件上的性能表现在某些场景下优于现有加速器模型,而在移动CPU上与MobilenetV3大型极简模型相似。
Aug, 2020
该研究提出了一种针对各种DNN层的精细结构修剪通用类别,并支持不同DNN和不同修剪方案的综合编译自动代码生成框架,进一步提出了一个编译器感知的网络修剪与架构搜索(NPAS)方法,利用基于强化学习的元模型过程解决大规模搜索空间问题,以获得比先前工作更好的手机图像分类性能。
Dec, 2020
该论文综述了当前关于硬件感知神经架构搜索的研究,包括搜索空间,搜索策略,加速技术和硬件成本估计策略。研究者采用多目标优化算法来解决神经架构复杂,导致在IoT,移动和嵌入式系统等资源受限的平台上部署困难的问题,并讨论了相关算法及策略的挑战和局限性,同时为未来的研究提供参考,这是首篇针对硬件感知神经架构搜索的论文综述。
Jan, 2021
本文提出一种基于延迟单调性的硬件感知神经架构搜索方法,通过利用搜索的代理设备在新设备上的可重用性和代理适应技术显著提高了单调性,仅使用一个代理设备即可找到接近 Pareto 最优架构,避免了为每个设备构建延迟预测器的高昂成本。
Nov, 2021
本论文提出了MAPLE-Edge,一个边缘设备定向的MAPLE扩展版本,它通过使用硬件-运行时描述符,训练架构-延迟回归网络来实现对边缘设备的延迟预测,与MAPLE相比,MAPLE-Edge可以使用更少的CPU性能计数器来描述运行时和目标设备平台。同时,MAPLE-Edge表现出比现有方法更高的延迟预测精度,并且可以很好地推广到跨运行时的设备。此外,作者还证明了通过从目标设备收集额外的样本,可以提高算法的性能。
Apr, 2022
该论文提出了一种名为EDNAS的新型架构,通过多任务学习(MTL)和硬件感知神经架构搜索(NAS)的联合学习,成功地提高了边缘平台上稠密预测的准确性,并通过提出JAReD方法降低了输出噪声,并揭示了最佳架构。
Oct, 2022
我们介绍了最新一代的MobileNets, 称为MobileNetV4 (MNv4), 具有超高效的移动设备架构设计。我们引入了Universal Inverted Bottleneck (UIB)搜索块,这是一种统一而灵活的结构,融合了Inverted Bottleneck (IB), ConvNext, Feed Forward Network (FFN), 以及一种新颖的Extra Depthwise (ExtraDW)变体。此外,我们还提出了Mobile MQA,一种专为移动加速器量身定制的注意力块,可实现39%的加速。同时,我们引入了优化的神经架构搜索(NAS)方法,提高了MNv4的搜索效率。UIB,Mobile MQA以及优化后的NAS方法的整合使得我们的MNv4模型成为大部分在移动CPU、DSP、GPU以及专用加速器(如Apple Neural Engine和Google Pixel EdgeTPU)上都达到Pareto最优的模型,这是其他模型不具备的特点。最后,为了进一步提高准确性,我们引入了一种新颖的蒸馏技术。利用这种技术增强,我们的MNv4-Hybrid-Large模型在Pixel 8 EdgeTPU上只需3.8ms的运行时间,达到了87%的ImageNet-1K准确性。
Apr, 2024
本文解决了在资源受限的边缘设备(如微控制器)上进行高效神经架构搜索的问题,以前的方法未考虑硬件限制。提出的MONAS框架结合了硬件延迟估计模型和专门的性能指标,无需大量训练和评估即可识别最佳神经架构。研究表明,MONAS在搜索效率上比以往工作提高了1104倍,并且在保持相似精度的同时,微控制器上的推理速度提升了3.23倍。
Aug, 2024