使用学习者高效微调压缩语言模型
本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法,通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明,通过最大化从未标记数据池中查询的模型的近似知识收益,可提高模型性能。最后,我们演示并分析了语言模型冻结层的好处,以减少可训练参数的数量,使其更适用于低资源环境。
Dec, 2020
本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架,用于对医学报告进行摘要提取,并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层,加速了训练速度,减少 GPU 内存的使用,并且保持自由文本生成质量的同时,提高了模型的效率和效益。
May, 2023
Sensi-BERT 是一种基于敏感性驱动的高效 BERT 模型微调方法,能够从现成的预训练 BERT 模型中生成高度参数有效的模型,适用于各种下游任务,且在相似或更小的参数预算下表现出比现有替代方案更好的性能。
Jul, 2023
在大语言模型时代,提高计算资源的有效利用需求变得非常重要。本文基于 LoRA 精调方法,引入了一种新颖的参数高效训练技术,通过频繁改变可训练参数的一部分,提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少,与当前最先进的参数高效算法相当,而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。
Jun, 2024
本篇研究证明,考虑下游微调方法会提高轻量级微调技术的性能,通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练,我们可以使受过训练的语言模型适合轻量级微调,从而在跨语言 NER 微调中获得高达 1.7 分的收益。
May, 2022
为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集(MRPC、COLA、STS-B)上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头,在不同数量的训练数据和时间限制下,与全模型微调相当。即使只使用 30% 的数据,它也表现出明显的稳定性,在中等数据水平上优于全模型微调。适配器模块的性能变异较大,在默认模型上的收益一致性较差。研究结果表明,BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角,强调了其鲁棒性,并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南,同时展示了适配器模块等稳定技术面临的挑战。
Jan, 2024
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020
通过参数高效微调能够提高大语言模型的性能,而无需大量的资源和计算。对多语言评估的先前研究表明,英语和其他语言在性能上存在很大差距。此外,开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调,以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外,我们还在低秩适应的等级和量化值上进行了实验,以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距,但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能,但在高资源语言上性能可能会下降。
Jan, 2024
本文提出一种有效的方式,利用单个、大型的预训练模型同时微调多个下游生成任务,以实现内存有效性的提升,同时在五个多样化的自然语言生成任务上的实验结果表明,仅使用每个任务额外的 2-3% 的参数,我们的模型可以维持或甚至提高整个模型的微调性能。
Apr, 2020