May, 2024

LLaMA-NAS:大规模语言模型高效神经架构搜索

TL;DR提出了一种基于一次性 NAS 的高效方法,通过对 LLaMA2-7B 进行微调,并应用基于遗传算法的搜索方法找到更小、计算复杂度较低的网络架构,实现了模型大小减少和吞吐量加速,同时保持了准确性;此方法比修剪或稀疏化技术更有效和高效,并且证明了量化能够进一步减少网络的大小和复杂度,为自动创建适用于廉价、更易得到的硬件平台的大型语言模型提供了解决方案。