大型多模态模型的持续指令调优
本研究介绍了 CLiMB 基准测试,并提出了一种改进的视觉-语言 Transformer (ViLT) 模型,用于同时处理多模态任务和单模态任务的连续学习问题。通过实验发现,虽然常见的连续学习方法可以缓解多模态任务学习中的遗忘问题,但并不能实现跨任务的知识转移。该基准测试将有助于研究这个多模态场景下的新型连续学习算法。
Jun, 2022
Multimodal Continual Instruction Tuning (MCIT) enables Multimodal Large Language Models (MLLMs) to meet continuously emerging requirements without expensive retraining by addressing the issues of catastrophic forgetting and negative forward transfer using the Fwd-Prompt method.
Jan, 2024
我们提出了一种基于Transformer的持续学习框架TAM-CL,用于学习涉及视觉和语言的多模态任务,并通过引入额外参数和知识蒸馏实现任务间的信息交流,以及解决灾难性遗忘问题。该方法在多种挑战性的多模态任务上达到了最先进的性能。
Jan, 2024
在研究中我们发现,当大型语言模型在复杂多样的特定领域下任务中不断进行微调时,对历史任务的推理性能会显著降低,这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜,调查了连续LLM微调场景中不同极小值之间的几何连接,发现它可以在可塑性和稳定性之间取得平衡。基于这些发现,我们提出了一种称为Interpolation-based LoRA(I-LoRA)的简单而有效的方法,它基于LoRA参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明,I-LoRA始终比先前的最先进方法取得显著提升,性能提高了高达11%,为大型语言模型连续学习问题提供了强大的基准和研究启示。
Feb, 2024
通过关键部分信息增益(KPIG)的动态重播数据和优化训练目标,我们提出了一种新的大语言模型(LLMs)的连续指令调整方法,从而使LLMs能够捕捉与正确响应相关的任务感知信息,并减轻对指令中的一般描述的过拟合。实验表明,我们的方法在已知任务和未知任务上实现了卓越的性能。
Mar, 2024
本研究针对多模态基础模型在实际应用中面临的持续过时问题,提出了一种实用的解决方案。通过介绍FoMo-in-Flux基准,我们探索了持续预训练的复杂场景,提供了数据中心和方法中心的深入见解。这项工作为现实世界的模型更新提供了全面的指导,可能显著提高多模态模型在特定子领域的适应能力与应用效果。
Aug, 2024
本研究解决了大型多模态模型在动态环境中持续学习新任务时的灾难性遗忘问题。提出了一种专为多模态持续学习设计的双模态引导提示学习框架(ModalPrompt),通过任务原型提示学习和高效提示选择,显著提高了新任务的学习效果,同时有效减轻了对先前知识的遗忘。实验结果表明,该方法在持续学习基准上实现了+20%的性能提升,并保持了较高的推理速度。
Oct, 2024
本研究解决了多模态大型语言模型在整合预训练视觉模型后,语言理解与生成任务性能显著下降的问题。提出将整合视为持续学习问题,并评估五种方法以减轻遗忘现象,从而找到一种减少语言性能损失的技术,最终使语言性能下降幅度最多降低15%,同时保持高效的多模态准确性。
Oct, 2024
该研究解决了现有大型视觉语言模型(LVLMs)在单任务适应中无法应对现实世界多样化和不断变化的需求的问题。提出的新方法“持续LLaVA”通过冻结LVLMs并构建双增量嵌入,有效支持再调优,并显著减少遗忘现象。这项研究的最显著发现是持续LLaVA在持续指令调优过程中优于以往方法,减少了知识遗忘,提高了模型的适应性。
Nov, 2024