LLaMA-NAS：大规模语言模型高效神经架构搜索

May, 2024

LLaMA-NAS：大规模语言模型高效神经架构搜索

LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

Anthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan

TL;DR提出了一种基于一次性 NAS 的高效方法，通过对 LLaMA2-7B 进行微调，并应用基于遗传算法的搜索方法找到更小、计算复杂度较低的网络架构，实现了模型大小减少和吞吐量加速，同时保持了准确性；此方法比修剪或稀疏化技术更有效和高效，并且证明了量化能够进一步减少网络的大小和复杂度，为自动创建适用于廉价、更易得到的硬件平台的大型语言模型提供了解决方案。

Abstract

The abilities of modern large language models (LLMs) in solving natural language processing, complex reasoning, sentiment analysis and other tasks have been extraordinary which has prompted their extensive adoption. Unfortunately, these abilities come with very high memory and computat

large language models pareto-optimal network architectures nas model size reduction quantization

发现论文，激发创造

通过神经架构搜索对预训练语言模型进行结构修剪

基于预训练语言模型和神经架构搜索的结构修剪方法，通过多目标策略实现对子网络的灵活压缩，提高模型效率。

May, 2024

朝着更少限制的宏观神经架构搜索

本文提出了一种名为 LCMNAS 的方法，它能够在非约束搜索空间条件下执行宏搜索，同时不依赖于预定义的启发式算法或范围限制，并引入三个组成部分来推动神经架构搜索方向的发展：利用有关广泛应用架构的信息，自主生成基于具有隐藏属性的加权有向图的复杂搜索空间的方法，从头开始生成完整的架构的进化搜索策略，以及结合有关初始化阶段和更低保真度估计的信息来推断它们对于建模复杂函数的训练能力和容量情况的混合性能估计方法，在 13 个不同的数据集上进行了实验，显示出 LCMNAS 能够使用最少 GPU 计算生成单元和基于宏的架构，并在各方面都取得了最先进的结果。

Mar, 2022

FL-NAS: 面向资源受限设备的 NAS 公平性技术发展：基于大型语言模型

通过考虑模型准确性、公平性和硬件部署效率，本文提出一种基于大型语言模型的神经架构搜索框架 FL-NAS，并通过实验证明，FL-NAS 在几乎所有设计考虑因素上都能找到高性能的深度神经网络，超越了现有技术成果。

Feb, 2024

LLMatic: 基于大型语言模型和质量多样性优化的神经架构搜索

本文介绍了如何将大型语言模型与品质多样性算法相结合进行代码生成，并使用 LLMatic 算法在 CIFAR-10 图像分类基准测试中展示了它可以在不需要先前知识的情况下生成性能良好的神经网络。

Jun, 2023

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

关于资源受限硬件平台的神经架构搜索

提出了一种新的框架，用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上，该框架使用 FPGAs 来实现和测试设计并在 CIFAR10 任务中提高了 18％至 68％的准确性。

Oct, 2019

MiLeNAS: 混合层次重构的高效神经网络架构搜索

提出了一种名为 mldas 的神经架构搜索算法，通过混合层次重新表述 NAS 问题并使用一阶方法优化，实现了高效且可靠的优化；并且相对于双层优化，其所搜索的神经网络模型具有更高的准确性。

Mar, 2020

学习低精度图神经网络

本研究使用 Low Precision Graph NAS (LPGNAS) 方法进行 Deep Graph Neural Networks 的定点化，并通过 8 个不同的数据集分类实现了模型和缓冲区大小的显著降低，同时保持了精度。

Sep, 2020

NAS-Bench-NLP: 自然语言处理神经架构搜索基准

本文的研究内容是基于文本数据集的循环神经网络搜索空间，旨在为神经架构搜索和自然语言处理 (NLP) 社区提供高潜力的研究成果。在实验中，研究者在文本数据集上训练了 14k 种循环神经网络结构，并进行了内在和外在的评估，最终测试了多个神经架构搜索算法并展示了预计算结果的可利用性。

Jun, 2020

LANA: 延迟感知网络加速

介绍了一种基于神经结构搜索技术和教师 - 学生知识蒸馏的延迟感知网络加速（LANA）方法，它在实验中取得了优异的效果，大幅提升了神经网络加速的速度和准确性。

Jul, 2021