用于大型预训练语言模型参数高效微调的神经架构搜索

ACLMay, 2023

用于大型预训练语言模型参数高效微调的神经架构搜索

Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models

Neal Lawton, Anoop Kumar, Govind Thattai, Aram Galstyan, Greg Ver Steeg

TL;DR探讨了一种基于网络剪枝的高效的神经架构搜索方法用于学习预训练模型的参数优化方法 (Parameter-efficient tuning)，并在 GLUE 上的实验结果表明算法的有效性以及 PET 网络结构设计的实际表现。

Abstract

parameter-efficient tuning (PET) methods fit pre-trained language models (PLMs) to downstream tasks by either computing a small compressed update for a subset of model parameters, or appending and fine-tuning a s

parameter-efficient tuning pre-trained language models neural architecture search structured pruning glue

发现论文，激发创造

通过神经架构搜索对预训练语言模型进行结构修剪

基于预训练语言模型和神经架构搜索的结构修剪方法，通过多目标策略实现对子网络的灵活压缩，提高模型效率。

May, 2024

任意少参数足以适应大规模预训练语言模型

本研究发现模型缩放可以缓解调整方法的设计差异，并使调整方法优化更少的参数以实现全参数微调性能，并探讨了此现象与优化角度的机制，这些结论不仅证明了模型缩放对调整方法的积极影响，还披露了其机制，有助于我们设计更有效和高效的调整方法。

Jun, 2023

用于参数高效调整的稀疏结构搜索

通过自动化的 PET 模块结构搜索方法 S^3PET，我们能够以远远低于用于传统模型的可训练参数的预算对预训练模型进行微调，搜索得到的结构具有高度可迁移性和可解释性且在保留超过 99% 微调性能的同时，只需 0.01% 的可训练参数。

Jun, 2022

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

AutoTinyBERT：用于高效预训练语言模型的自动超参数优化

本文提出一种名为 AutoTinyBERT 的方法，采用一次神经结构搜索技术来自动搜索 BERT 架构的超参数，为各种延迟约束提供自适应和高效的超小型 PLMs 开发方式，并在 GLUE 和 SQuAD 基准测试中表现出优异的性能。

Jul, 2021

重新审视参数高效调整：我们已经到达目标了吗？

本文对参数节省调整方法（PETuning）的训练和评估进行了首次全面调查。研究发现当前 PETuning 研究中存在问题的验证和测试方法，以及 PETuning 方法的不稳定性，导致结论不可靠。当在真正公平的评估协议下进行比较时，PETuning 无法产生一致的竞争性表现，而在中高资源设置中细调仍然是表现最佳的方法。本文深入探讨了 PETuning 方法的不稳定性原因，观察到可训练参数数量和训练迭代次数是两个主要因素：减少可训练参数和延长训练迭代次数可能会导致 PETuning 方法的稳定性更高。

Feb, 2022

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

低资源语言翻译的参数高效微调解锁

参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要，通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分，我们进行了具备不同资源和域的全面实证实验，评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明，6 种参数高效微调架构在域内和域外测试中均超过了基准线，其中 Houlsby+Inversion 适配器表现最佳，验证了参数高效微调方法的有效性。

Apr, 2024

大型模型的参数高效微调：综合调查

通过介绍 Parameter Efficient Fine-Tuning 算法以及系统实现相关内容，该论文对大模型在计算成本方面的问题进行了综述，提供了对性能和系统实施的深入洞察，为研究人员了解最新发展和实际应用提供了不可或缺的资源。

Mar, 2024

AutoPEFT: 参数高效微调自动配置搜索

本文介绍了一个名为 AutoPEFT 的框架，通过高维贝叶斯优化自动配置多个 PEFT 模块，控制并最大化性能和参数效率之间的平衡，实现对于性能和参数节约的优化，表现要优于现有的 PEFT 方法，高于标准 GLUE 基准上的平均值，并且在单个任务上进行配置搜索，AutoPEFT 即使优于全模型微调。

Jan, 2023