渐变掩模调优提升 LLM 性能上限

Jun, 2024

Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance

Haoling Li, Xin Zhang, Xiao Liu, Yeyun Gong, Yifan Wang...

TL;DR基于任务特定信息和梯度掩码调整的细节调整方法在大型语言模型中超越了传统的细调方法，并提升了语言模型的性能上限。

Abstract

large language models (LLMs) have revolutionized lots of fields of research. Although it is well-known that fine-tuning is essential for enhancing the capabilities of LLMs, existing research suggests that there i

large language models fine-tuning gradient-mask tuning task-specific information llm performance

发现论文，激发创造

随机屏蔽找到参数高效微调的优胜票

通过使用随机遮挡（Random Masking）方法，本研究探讨了参数高效微调（PEFT）的极限，展示了随机遮挡方法的出人意料的有效性，并证明了遮挡引导的损失平面更平缓、解决方案更分散，这使得可以使用更大的学习率来匹配标准 PEFT 算法在各种任务中的性能，而使用更少的可训练参数。

May, 2024

规范化的蒙版调整：揭示预训练视觉语言模型中的隐藏知识

我们设计了一种名为正则化掩码调优的新型调优方法，在下游任务中通过学习的选择来屏蔽网络参数，从而将前期训练阶段中隐藏的有用知识重新引入到视觉语言模型中，通过实验证明了这种方法在不同数据集上的优越性能。

Jul, 2023

同时屏蔽，不是提示优化：同传中微调语言模型的范式转变

利用一种名为 SimulMask 的新模式，通过在 Fine-tuning 期间通过屏蔽注意力连接来建模即时翻译，成功解决了一系列问题，从而使大语言模型在同时翻译任务中取得了显著提升的翻译质量，并减少了计算成本。

May, 2024

LLMs 在医学多模态领域的调整方法是否有效？

通过对大型语言模型（LLMs）的精确调整和创新的参数高效微调（PEFT）方法的研究实验，本研究探讨了大型模型的微调方法对医疗领域的多模态模型的影响，并发展了最有效的医疗 VLP 模型微调方式，以指导医疗领域研究人员优化 VLM 的训练成本，促进其在医疗保健领域的更广泛应用。

Mar, 2024

提高预训练语言模型的泛化能力

预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制，该问题表现为在评估与训练数据集不同的示例时，性能显著下降，被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法，通过将掩码语言建模 (MLM) 训练目标整合到微调过程中，提高了 PLMs 的泛化能力。全面的实验证明，Mask-tuning 超越了当前最先进的技术，并增强了 PLMs 在离群数据集上的泛化能力，同时提高了它们在分布数据集上的性能。研究结果表明，Mask-tuning 改善了 PLMs 在未知数据上的可重用性，使其在实际应用中更加实用和有效。

Jul, 2023

通过掩码特定损失提高预训练语言模型的敏感性：以生物医学 NER 为案例研究

通过适当加权领域特定术语并加入遮蔽策略，提高语言模型的灵敏度和检测领域特定术语的能力。

Mar, 2024

在大型语言模型中培养孩子：朝着有效和具有普适性的微调

本篇文章提出了名为 Child-Tuning 的 fine-tuning 技术，通过在反向传播过程中遮盖非子网络的梯度来更新大型预训练模型的子网络的子集，实验结果表明 Child-Tuning 在 GLUE 基准测试的各个下游任务中始终优于普通 fine-tuning，平均分数高出 1.5~8.6 分。此外，领域转移和任务转移的实证结果表明，Child-Tuning 可以大幅提高泛化性能。

Sep, 2021

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023

BBTv2：走向基于大语言模型的无梯度未来

本研究介绍了改进版本的黑盒调参法 BBTv2，将连续的提示优化到每一层的预训练模型中，并提出了一种分治的无梯度算法，以可比的性能在少样本学习下替代全模型调参和其他方法。

May, 2022

无需增加延迟的参数高效微调

本文提出了一种任务不可知的生成稀疏掩码的方法，仅使用预训练参数的振幅信息，可以显著提高性能和存储效率，并引入了一种新颖的适配器技术，可以直接应用于预训练参数，与全细调速度相同。

May, 2023