超调:大型语言模型的自适应调节方法,无需借助反向传播算法
本文提出一种有效的方式,利用单个、大型的预训练模型同时微调多个下游生成任务,以实现内存有效性的提升,同时在五个多样化的自然语言生成任务上的实验结果表明,仅使用每个任务额外的 2-3% 的参数,我们的模型可以维持或甚至提高整个模型的微调性能。
Apr, 2020
本研究首次将梯度基础的超参数优化方法应用于序列到序列任务中,为神经机器翻译和自然语言理解任务(通过 T5 预训练)提供了效率和性能增益。通过超参数优化得到的一些超参数学习时间表可以超过甚至优于最优常值调整。同时,本文还展示了在预训练期间学习超参数可以提高在下游自然语言理解任务中的性能表现。
Sep, 2022
本文提出一种基于预训练的参数高效迁移学习框架,使用共享的超网络对预训练语言模型进行微调,支持语言和视觉任务,并在多任务学习中具有较好的性能和转移能力。
Mar, 2022
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
本研究提出了一种新的语言转换微调策略,它在多个转换器层中引入了特定于任务的参数,这些参数是来自单一可训练向量的固定随机投影,使微调具有明显更少的参数,从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。
May, 2023
本篇文章提出了名为 Child-Tuning 的 fine-tuning 技术,通过在反向传播过程中遮盖非子网络的梯度来更新大型预训练模型的子网络的子集,实验结果表明 Child-Tuning 在 GLUE 基准测试的各个下游任务中始终优于普通 fine-tuning,平均分数高出 1.5~8.6 分。此外,领域转移和任务转移的实证结果表明,Child-Tuning 可以大幅提高泛化性能。
Sep, 2021
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020
通过参数高效微调能够提高大语言模型的性能,而无需大量的资源和计算。对多语言评估的先前研究表明,英语和其他语言在性能上存在很大差距。此外,开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调,以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外,我们还在低秩适应的等级和量化值上进行了实验,以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距,但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能,但在高资源语言上性能可能会下降。
Jan, 2024
本篇研究证明,考虑下游微调方法会提高轻量级微调技术的性能,通过使用 MAML 和优化元学习技术为轻量级微调方法进行预先训练,我们可以使受过训练的语言模型适合轻量级微调,从而在跨语言 NER 微调中获得高达 1.7 分的收益。
May, 2022
在大语言模型时代,提高计算资源的有效利用需求变得非常重要。本文基于 LoRA 精调方法,引入了一种新颖的参数高效训练技术,通过频繁改变可训练参数的一部分,提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少,与当前最先进的参数高效算法相当,而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。
Jun, 2024