重新参数化的低秩提示:在 0.5K 参数范围内泛化视觉语言模型
本研究提出一个新的模型 Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉 - 语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
本研究提出了一种名为 “Approximated Prompt Tuning” 的方法,用以提高视觉语言预训练模型的迁移学习效率,其基于软提示令牌的独立信息扩散步骤,从而有效地避免了昂贵的全局关注建模,并显著降低了计算复杂度。
Jun, 2023
通过低秩矩阵来初始化软提示以减少可训练参数数量并保持有效性,进而提出分解式提示调优方法,并在高资源和低资源场景下的 SuperGLUE 基准实验结果表明了该方法的有效性。
Oct, 2023
本论文研究了基于 prompt 的低资源视觉语言(VL)任务 few-shot 学习。 对大规模预训练的 VL 模型进行了实验,证明 FewVLM 在 VQA 任务上的效果优于 Frozen,而且能够达到比更大的模型 PICa 相当的结果。
Oct, 2021
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
近期关于 Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑 Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了 Low-Rank Adaptation(LoRA)在少样本适应学习中,并在 11 个数据集上展示了其潜力,与最先进的基于 prompt 和 adapter 的方法进行对比。令人惊讶的是,我们的简单 CLIP-LoRA 方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本 VLMs 中这些新兴主题的进展。
May, 2024
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
Apr, 2024
在本论文中,我们提出了一种名为 LoPT 的低秩模型,用于优化提示信息,通过减少可训练参数数量,实现与完全参数的提示优化相似的效果,同时相较于现有方法需要的参数数量减少了 5 到 20 倍。
Jun, 2024