预训练语言模型层归一化参数有效调整

Nov, 2022

预训练语言模型层归一化参数有效调整

Parameter-Efficient Tuning on Layer Normalization for Pre-trained Language Models

Wang Qi, Yu-Ping Ruan, Yuan Zuo, Taihao Li

TL;DR本文提出了一种仅利用 0.03% 参数的 LN-tuning 方法，通过调整 Layer Normalization 模块的增益和偏置项，实现对 PLMs 的参数高效调整，同时研究了将 LN-tuning 与其他先前方法相结合的统一框架，在 MHA 和 LayerNorm 同时调整的情况下可以获得性能提升，但在 FFN 和 LayerNorm 同时调整的情况下将导致性能下降，该方法实现了 SOTA 的性能表现。

Abstract

Conventional fine-tuning encounters increasing difficulties given the size of current pre-trained language models, which makes parameter-efficient tuning become the focal point of frontier research. Previous meth

pre-trained language models parameter-efficient tuning layer normalization ln-tuning sota performance

发现论文，激发创造

调整 Attention 中的 LayerNorm：朝着高效的多模态 LLM 微调

将大型语言模型（LLMs）转换为多模式大型语言模型（MLLMs）的有效策略，通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性，同时进一步使用对话数据进行选择性调整能够提高效率。

Dec, 2023

仅调整规范层的表达能力

本研究探讨了针对正则化层进行精调的可行性，并发现仅针对归一化层的调整能够重构任何目标网络，并验证了这一结论在过度参数化情况下仍然成立。

Feb, 2023

LayerNorm: 参数高效微调中的关键组件

改进和优化 BERT 预训练模型以实现参数高效微调，通过分析不同组件，发现经过微调后，输出层规范化（LayerNorm）发生的变化最为显著。通过仅微调 LayerNorm，可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能，并用 Fisher 信息确定了 LayerNorm 的关键子集，在 GLUE 基准测试中解决了许多 NLP 任务。

Mar, 2024

基于层裁剪的医疗报告摘要和医学对话生成参数高效微调

本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架，用于对医学报告进行摘要提取，并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层，加速了训练速度，减少 GPU 内存的使用，并且保持自由文本生成质量的同时，提高了模型的效率和效益。

May, 2023

联合重新参数化的多层适应性用于高效和私密调整

本研究提出了一种新的语言转换微调策略，它在多个转换器层中引入了特定于任务的参数，这些参数是来自单一可训练向量的固定随机投影，使微调具有明显更少的参数，从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。

May, 2023

聚焦于效率：LayerNorm 作为细调医学视觉语言预训练模型的催化剂

通过细调 LayerNorm 层，在医疗视觉语言模型（Med-VLMs）中实现了传统细调方法的高效性、准确性和泛化能力，特别适用于大规模 Med-VLMs。

Apr, 2024

面向参数效率语言模型微调的自适应前缀调整

本研究聚焦于前缀调整 fine-tuning 技术，并提出了自适应前缀调整（APT）方法，结合门控机制实现对细粒度和粗粒度级别的前缀优化，实证实现了在 SuperGLUE 和 NER 数据集上的有效性和效率验证。

May, 2023

预训练语言模型适应的基于转换器的调整方法的有效性研究

本文研究了基于 Adapter 的微调方法。实验证明，对于某些具有挑战性的任务，Adapter-based tuning 方法比 fine-tuning 效果更好，并且更抗过拟合和更不敏感于学习率的变化。

Jun, 2021

AdaMix: 适应混合策略用于参数高效调整的模型

提出 AdaMix，在保持大部分 PLM 权重不变的情况下，通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能，仅调整 0.1-0.2％的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。

Oct, 2022

AdaMix: 参数高效模型调整的自适应混合

本文提出 AdaMix 作为一种通用的参数高效微调方法，通过调整每个 Transformer 层中引入的自适应模块的混合来提高下游自然语言理解和生成任务的性能。这种方法只对 0.1-0.2％的 PLM 参数进行微调，可以超越目前的各种参数高效微调和完整模型微调方法。

May, 2022