视觉语言模型的软上下文共享 Prompt 调整
该研究提出 Cross-modal Prompt Tuning,一种基于图像和文本的填空问题的视觉定位模型调参范式,能够在少量标记数据下使模型具有强大的零样本或少样本学习能力,实现了视觉与语言的理解与应用。
Sep, 2021
我们提出了多任务提示调整(MPT)方法,该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示,然后学习该共享提示的乘性低秩更新,以高效地将其适应每个下游目标任务。在 23 个自然语言处理数据集上进行的广泛实验表明,我们的方法在某些情况下优于最先进的方法,包括完全微调基线方法,尽管只有 0.035%的特定于任务的参数被调整。
Mar, 2023
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023
该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法,通过学习一个微小的神经网络来联合优化跨不同模态的提示,并在 11 个视觉数据集上进行了强有力的测试,取得了较好的 few-shot learning 和 domain generalization 的效果。
Oct, 2022
本研究提出一个新的模型 Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉 - 语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
本文介绍了一种基于多模态深度共生的 Prompt Tuning 方法,通过学习一个模型无关的变换网络,实现了深度的双向自然语言和视觉信息融合,在图像识别和领域外泛化方面表现优异。
Jun, 2023
本文提出了一种新的对视觉和语言模型进行计数事实学习(counterfactual prompt learning,CPL)的方法,该方法同时采用反事实生成和对比学习的方法,在一个联合优化框架中从真实和反事实例子中学习更具有普适性的 prompt 表示。实验测试表明,CPL 在不同的视觉和语言任务上都可以获得优秀的 few-shot 性能。
Oct, 2022
CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架,它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。
Apr, 2022
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021