构建强韧的图像 - 语言模型提示
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
我们研究了视觉提示在强大源模型下的性能表现,并提出了一种名为 Prompt Boundary Loose (PBL) 的新技术来有效减轻在标准准确性上的次优结果,同时使用强大模型作为源模型不会丧失(甚至明显改善)其对抗性鲁棒性。在多个数据集上的广泛实验证明了我们发现的泛用性,并展示了我们提出方法的显著优势。
Nov, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
本文介绍了一种软提示学习的方法,用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离,进而提高模型性能,并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明,该方法显著优于所有先前的软提示工作,并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。
Oct, 2022
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
利用贝叶斯框架中的 Prompt 学习方法,通过建模数据相关先验,减轻少样本学习中的过拟合问题,提高提示信息对未知样例的适应性,并展示相对现有方法在基准数据集上显著性能改进的统计结果。
Jan, 2024
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
Mar, 2024
通过整合大型语言模型(LLMs)提升预训练视觉 - 语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023
本文探讨使用独立学习的提示符是否可以通过提示代数,组合不同任务的模型。我们考虑使用提示调整的视觉语言模型 (VLM) 作为我们的基本分类器,形式化地定义提示代数的概念,提出了约束提示调整来改善复合分类器的性能。我们证明了我们方法的有效性对象分类和属性分类数据集,我们的复合模型平均准确度与最佳基本模型相差不到 2.5%,在 UTZappos 上,平均提高了 8.45%分类准确率。
Jun, 2023
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023