定制基础模型与低秩提示调适
在本论文中,我们提出了一种名为 LoPT 的低秩模型,用于优化提示信息,通过减少可训练参数数量,实现与完全参数的提示优化相似的效果,同时相较于现有方法需要的参数数量减少了 5 到 20 倍。
Jun, 2024
基于大规模数据进行预训练的基础模型在各种自然成像下游任务中广泛取得成功。参数高效微调方法旨在通过仅更新少量参数以减少计算开销,使基础模型适应新领域。然而,这些参数高效微调方法的有效性,尤其是在跨域少样本场景(如医学图像分析)中,并未完全探讨。本研究旨在促进参数高效微调在将基础模型适应于医学图像分类任务中的性能研究。此外,为了缓解主流提示微调方法中提示引入方式和 Transformer 架构的逼近能力限制,我们提出了嵌入式提示微调(EPT)方法,通过将提示符嵌入扩展通道。我们还发现基础模型在预训练过程中的特征空间分布存在异常,而提示微调可以帮助缓解此负面影响。为了解释这一现象,我们还引入了一种新颖的视角来理解提示微调: extbf {提示微调是一种分布校准器}。我们通过分析 EPT 中包含的基于补丁的缩放和特征分离操作来支持这一观点。我们的实验表明,EPT 在少样本医学图像分类任务上显著优于几种先进的微调方法,并在竞争激烈的时间内完成微调过程,表明 EPT 是一种有效的参数高效微调方法。一旦被接受,我们的代码将会发布。
Jul, 2024
针对多种多语言下游任务中,将预训练的大语言模型(LLM)进行调整以适应不同语言的计算成本过高的问题,本研究提出了一种参数高效的微调方法,即 Featurized Low-rank Mixtures(FLix),通过为每个数据集分配独立的低秩权重更新参数,实现了对多样的数据集混合的适应并对未见数据集表现更好。实验证明,FLix 在使用不同训练数据混合的有监督学习和零样本设置中,对多种任务都取得了显著的改进。
Feb, 2024
本文研究了参数高效微调方法和少样本自然语言生成,提出了一个超越传统方法且在训练成本上没有明显增加的方法,同时通过中间实验证明了该方法在少样本场景中的卓越可迁移性,为数据不充足和计算有限的情况提供了解决方案。此外,综合比较了多种参数高效微调方法,揭示了在少样本自然语言生成任务中某些方法在挑战性数据集上可能存在困难。
Sep, 2023
本研究揭示了未经审查的 Prompt tuning 选择对持续学习系统的整体性能产生负面影响,使用 LoRA 替代 Prompt tuning 的变体在领域增量和类别增量基准上实现了更高的准确性,同时具有相似的推理速度。
Jun, 2024
提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法(PEFT)框架,它通过 LoRA、BitFit 和 IA3 等技术,在几乎不需要可训练参数和 GPU 内存的情况下,展示了与预训练模型完全微调相当的性能,然而,在多模态微调中,经常需要进行架构修改或完全微调。为了解决这个问题,我们提出了 Context-PEFT,它根据令牌的领域学习不同的适配器参数组,这种方法使得可以实现类似 LoRA 的权重注入,而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估,在类似的数据限制下,优于完全微调,并同时提供了更高的参数效率和计算经济性的解决方案。
Dec, 2023
MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器,用于针对预训练大型语言模型进行性能优化的方法。实验证明,在自然语言理解和指令跟随任务上,相较于低秩适配器 LoRA,MELoRA 在拥有 8 倍较少可训练参数时表现更好,而在指令跟随任务上拥有 36 倍较少可训练参数时也表现更好,证明了 MELoRA 的有效性。
Feb, 2024
通过将知识图嵌入到大型语言模型中,我们提出了一种名为 KnowLA 的知识适应方法,该方法通过在语言模型中插入适应层,将文本中出现的实体的嵌入融入到语言模型中,并与 LoRA 一起进行训练。实验结果表明 KnowLA 的有效性和鲁棒性,能够在不改变语言模型参数或输入提示的情况下,激活语言模型中的相关参数化知识以回答问题。
Mar, 2024
提出了一种用于医学图像分类的精细化提示调整(FPT)的参数高效调整方法,FPT 相较于其他参数高效调整方法明显降低了内存消耗,并通过引入精细化提示和重要标记选择等技术降低了训练成本和内存需求。
Mar, 2024
参数效率微调(PEFT)是应对大型语言模型的适应和服务挑战的一种有前景的方法,本研究中描述了一种非侵入式的 PEFT 技术 AdaLink,并在各种任务中与最先进的侵入式 PEFT(LoRA)和全模型微调(FT)相比表现出有竞争力的性能。
Oct, 2023