渐变掩模调优提升 LLM 性能上限
通过使用随机遮挡(Random Masking)方法,本研究探讨了参数高效微调(PEFT)的极限,展示了随机遮挡方法的出人意料的有效性,并证明了遮挡引导的损失平面更平缓、解决方案更分散,这使得可以使用更大的学习率来匹配标准 PEFT 算法在各种任务中的性能,而使用更少的可训练参数。
May, 2024
我们设计了一种名为正则化掩码调优的新型调优方法,在下游任务中通过学习的选择来屏蔽网络参数,从而将前期训练阶段中隐藏的有用知识重新引入到视觉语言模型中,通过实验证明了这种方法在不同数据集上的优越性能。
Jul, 2023
利用一种名为 SimulMask 的新模式,通过在 Fine-tuning 期间通过屏蔽注意力连接来建模即时翻译,成功解决了一系列问题,从而使大语言模型在同时翻译任务中取得了显著提升的翻译质量,并减少了计算成本。
May, 2024
通过对大型语言模型(LLMs)的精确调整和创新的参数高效微调(PEFT)方法的研究实验,本研究探讨了大型模型的微调方法对医疗领域的多模态模型的影响,并发展了最有效的医疗 VLP 模型微调方式,以指导医疗领域研究人员优化 VLM 的训练成本,促进其在医疗保健领域的更广泛应用。
Mar, 2024
预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制,该问题表现为在评估与训练数据集不同的示例时,性能显著下降,被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法,通过将掩码语言建模 (MLM) 训练目标整合到微调过程中,提高了 PLMs 的泛化能力。全面的实验证明,Mask-tuning 超越了当前最先进的技术,并增强了 PLMs 在离群数据集上的泛化能力,同时提高了它们在分布数据集上的性能。研究结果表明,Mask-tuning 改善了 PLMs 在未知数据上的可重用性,使其在实际应用中更加实用和有效。
Jul, 2023
本篇文章提出了名为 Child-Tuning 的 fine-tuning 技术,通过在反向传播过程中遮盖非子网络的梯度来更新大型预训练模型的子网络的子集,实验结果表明 Child-Tuning 在 GLUE 基准测试的各个下游任务中始终优于普通 fine-tuning,平均分数高出 1.5~8.6 分。此外,领域转移和任务转移的实证结果表明,Child-Tuning 可以大幅提高泛化性能。
Sep, 2021
本文研究发现,相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型,仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外,分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处,包括避免负面任务转移,能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。
Feb, 2023
本研究介绍了改进版本的黑盒调参法 BBTv2,将连续的提示优化到每一层的预训练模型中,并提出了一种分治的无梯度算法,以可比的性能在少样本学习下替代全模型调参和其他方法。
May, 2022
本文提出了一种任务不可知的生成稀疏掩码的方法,仅使用预训练参数的振幅信息,可以显著提高性能和存储效率,并引入了一种新颖的适配器技术,可以直接应用于预训练参数,与全细调速度相同。
May, 2023