调整 Attention 中的 LayerNorm：朝着高效的多模态 LLM 微调

Dec, 2023

调整 Attention 中的 LayerNorm：朝着高效的多模态 LLM 微调

Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM Finetuning

Bingchen Zhao, Haoqin Tu, Chen Wei, Jieru Mei, Cihang Xie

TL;DR将大型语言模型（LLMs）转换为多模式大型语言模型（MLLMs）的有效策略，通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性，同时进一步使用对话数据进行选择性调整能够提高效率。

Abstract

This paper introduces an efficient strategy to transform Large Language Models (LLMs) into Multi-Modal large language models (MLLMs). By conceptualizing this transformation as a domain adaptation process, i.e., transitioning from text understanding to embracing multiple modalities, we

large language models multi-modal large language models efficiency layernorm strategy expressive power

发现论文，激发创造

预训练语言模型层归一化参数有效调整

本文提出了一种仅利用 0.03% 参数的 LN-tuning 方法，通过调整 Layer Normalization 模块的增益和偏置项，实现对 PLMs 的参数高效调整，同时研究了将 LN-tuning 与其他先前方法相结合的统一框架，在 MHA 和 LayerNorm 同时调整的情况下可以获得性能提升，但在 FFN 和 LayerNorm 同时调整的情况下将导致性能下降，该方法实现了 SOTA 的性能表现。

Nov, 2022

聚焦于效率：LayerNorm 作为细调医学视觉语言预训练模型的催化剂

通过细调 LayerNorm 层，在医疗视觉语言模型（Med-VLMs）中实现了传统细调方法的高效性、准确性和泛化能力，特别适用于大规模 Med-VLMs。

Apr, 2024

LayerNorm: 参数高效微调中的关键组件

改进和优化 BERT 预训练模型以实现参数高效微调，通过分析不同组件，发现经过微调后，输出层规范化（LayerNorm）发生的变化最为显著。通过仅微调 LayerNorm，可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能，并用 Fisher 信息确定了 LayerNorm 的关键子集，在 GLUE 基准测试中解决了许多 NLP 任务。

Mar, 2024

多模态指令调节与条件化 LoRA 混合

通过与多模态指令调优相结合，引入了一种综合了条件的低秩适应矩阵 (MixLoRA) 的新方法，旨在减轻任务干扰，实现在多样的多模态任务中具有良好的适应性和灵活性。实验结果表明，MixLoRA 不仅在相同或更高秩的情况下胜过传统的低秩适应方法 LoRA，展现出其在各种多模态评估数据集上的有效性和适应性。

Feb, 2024

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

MAPLE: 多语言大语言模型参数高效微调的评估

通过参数高效微调能够提高大语言模型的性能，而无需大量的资源和计算。对多语言评估的先前研究表明，英语和其他语言在性能上存在很大差距。此外，开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调，以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外，我们还在低秩适应的等级和量化值上进行了实验，以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距，但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能，但在高资源语言上性能可能会下降。

Jan, 2024

一个关于扩展面向指令调整的大型多模态模型的实证研究

通过调整视觉指导，对开源大型多模态模型进行扩展研究，探索影响多模态和语言能力的变量，发现扩展模型能够提升性能，具有与整个模型微调相当的效果，并强调了提高图像分辨率和混合多模态语言数据对性能的重要性，有时视觉指导可以提高纯语言功能。

Sep, 2023

大语言模型时代中重新思考学习率调整

大型语言模型引起了深度学习在实现卓越的人类预测性能方面的最新成功。本文重新评估了大型语言模型时代中学习率调整的研究挑战和机遇，并提出了 LRBench++ 来评估学习率策略，验证了大型语言模型精调与传统深度神经网络训练之间的关键差异。

Sep, 2023

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

当扩展与 LLM 微调相遇：数据、模型和微调方法的影响

大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明，LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律，LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处，而仅考虑参数缩放的效果通常并不明显，同时最优的 finetuning 方法与任务和微调数据相关联，这些结果对于选择和开发 LLM finetuning 方法具有指导意义。

Feb, 2024