NASH：硬件优化机器学习模型的神经架构搜索

Mar, 2024

NASH：硬件优化机器学习模型的神经架构搜索

NASH: Neural Architecture Search for Hardware-Optimized Machine Learning Models

Mengfei Ji, Zaid Al-Ars

TL;DR机器学习算法在不断增加的应用中需要在高准确性、高吞吐量和低延迟之间实现更好的权衡。本论文介绍了一种名为 NASH 的新方法，将神经架构搜索应用于机器学习硬件中。通过使用 NASH，硬件设计可以同时达到更高的吞吐量、低延迟和更好的准确性性能。该论文介绍了 NASH 策略的四个版本，所有版本均显示出比原始模型更高的准确性。实验结果表明，在 ImageNet 数据集上，将 NASH 应用于 ResNet18 或 ResNet34 可以使 Top-1 准确性增加最多 3.1%，Top-5 准确性增加最多 2.2%。我们还将这种方法集成到 FINN 硬件模型合成工具中，以自动应用我们的方法和生成硬件模型。结果表明，使用 FINN 可以实现最大达到 324.5 帧每秒的吞吐量。此外，NASH 模型还可以在准确性和硬件资源利用率之间取得更好的权衡。准确性 - 硬件（HW）帕累托曲线显示，四个 NASH 版本的模型代表了在给定硬件利用率的情况下达到最高准确性的最佳权衡。我们的实现代码是开源的，可以在 GitHub 的链接处获得。

Abstract

As machine learning (ML) algorithms get deployed in an ever-increasing number of applications, these algorithms need to achieve better trade-offs between high accuracy, high throughput and low latency. This paper introduces NASH, a novel approach that applies →

machine learning neural architecture search hardware design accuracy performance convolutional neural networks

发现论文，激发创造

关于资源受限硬件平台的神经架构搜索

提出了一种新的框架，用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上，该框架使用 FPGAs 来实现和测试设计并在 CIFAR10 任务中提高了 18％至 68％的准确性。

Oct, 2019

硬件感知神经架构搜索的综合调查

该论文综述了当前关于硬件感知神经架构搜索的研究，包括搜索空间，搜索策略，加速技术和硬件成本估计策略。研究者采用多目标优化算法来解决神经架构复杂，导致在 IoT，移动和嵌入式系统等资源受限的平台上部署困难的问题，并讨论了相关算法及策略的挑战和局限性，同时为未来的研究提供参考，这是首篇针对硬件感知神经架构搜索的论文综述。

Jan, 2021

FLASH：具有硬件优化的快速神经架构搜索

FLASH 是一种快速的神经架构搜索方法，它在真实硬件平台上协同优化 DNN 的准确性和性能，并且该算法比现有最先进的方法具有超过四个数量级的加速，在嵌入式设备上，搜索时间不到 3 秒。

Aug, 2021

HW-NAS-Bench: 硬件感知神经架构搜索基准

本研究提出了一个名为 HW-NAS-Bench 的数据集，该数据集包含了网络搜索空间中所有网络的硬件性能表现数据，并对其进行了综合分析。与通用 NAS 相似，硬件感知神经架构搜索（HW-NAS）是一项需要大量计算资源和硬件设备的研究任务。本数据集让硬件不熟悉的研究者也能参与 HW-NAS 研究，并证明专门针对特定设备进行的 HW-NAS 确实可以导致最佳的准确性 - 成本平衡。

Mar, 2021

PASHA：使用渐进式资源分配的高效 HPO 和 NAS

本论文提出了一种名为 PASHA 的方法来处理使用有限计算资源训练大数据集上的机器学习模型的挑战，该方法通过动态分配资源来调整模型，结果表明 PASHA 消耗的计算资源比 ASHA 少得多。

Jul, 2022

巨人的肩膀：硬件和神经网络架构热启动的协同搜索

该论文提出了一种名为 HotNAS 的新颖框架，通过从现有的预训练模型（即模型库）开始，以 “热” 状态启动搜索过程，从而避免了漫长的训练时间，从而将搜索时间从 200 GPU 小时缩短为不到 3 GPU 小时。在 HotNAS 中，我们将硬件设计空间、神经体系结构搜索空间和压缩空间相互集成，以通过模型压缩来创建新的减少延迟的机会，而同时也带来了挑战。论文通过 ImageNet 数据集和 Xilinx FPGA 的实验表明，在 5ms 的时间约束下，HotNAS 生成的神经体系结构的 Top-1 和 Top-5 精度与现有的神经体系结构相比，可以实现高达 5.79% 和 3.97% 的精度提高。

Jul, 2020

最佳结合：CNN 及其硬件加速器的 AutoML 协同设计

本研究利用神经网络结构搜索技术，并联合考虑卷积神经网络模型和硬件加速器的参数，实现自动化的硬件 - 卷积神经网络代码设计。此方法能有效提高分类精度和效率，显著优于现有设计，本研究着重于在代码设计空间中进行多目标优化问题的定义以及探索使用强化学习的搜索策略，使得在 1000 个 GPU 小时内，相比于 ResNet 在优化硬件加速器情况下在 CIFAR-100 分类准确率上提高了 1.3％，同时提高了 41％的性能 / 面积比。

Feb, 2020

准确性与效率：通过 FPGA-Aware 神经架构搜索实现双赢

本文提出了一种新的硬件感知的神经架构搜索框架，名为 FNAS，使用 Field Programmable Gate Arrays 作为车辆，通过性能抽象模型对神经架构进行快速剪枝，以保证满足实现规范的延迟，并在精度下降少于 1% 的情况下快速搜索到有效的架构。

Jan, 2019

多样任务有效的架构搜索

本文研究了基于神经架构搜索（NAS）的自动机器学习（AutoML）在计算机视觉以外的任务上的应用，作者提出了一种名为 DASH 的不同 iable NAS 算法，用于搜索卷积神经网络（CNN）的卷积核，实现了在多种应用领域上最先进的自动化性能。

Apr, 2022

NASH: 面向生成语义哈希的端到端神经结构

本文提出一种新型神经网络模型 NASH，用于信息检索中的语义哈希，利用伯努利潜变量处理二进制约束。采用神经变分推理框架进行训练，直接通过离散潜变量反向传播梯度以优化哈希函数。结合率失真理论，本文进行了理论分析，通过在三个公开数据集上的实验验证其有效性。结果表明，在无监督和监督方案下，我们的方法显著优于几种最新的模型。

May, 2018