学习生成软提示用于组合式零样本学习
提出了一种名为 DFSP 的新型框架,它结合了视觉 - 语言模型 (VLM) 用于无人先前经验认知的建立,通过可学习的软提示与状态和对象的矢量组合来建立它们之间的共同表示,并在语言和图像分支之间设计了一种跨模式分解融合模块,从而更好地学习它们之间的关系,提高了成对空间中未知构成的反应,从而缩小了已知集和未知集之间的域间隙。实验结果表明,该方法在三个具有挑战性的基准测试数据集上对于已有的最先进方法有显着的改善。
Nov, 2022
本文提出了一种使用 CLIP 模型的语言信息分布 ——PLID 模型来增强光学识别任务中未知组合视觉概念的泛化性能,通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用 MIT-States、UT-Zappos、C-GQA 数据集的实验结果表明,PLID 方法相较于其他方法表现更佳。
May, 2023
我们提出了 GIP-COL(注入图结构的软提示用于组合学习),在提示为基础的学习框架内更好地探索预训练视觉 - 语言模型(VLMs)的组合式零样本学习(CZSL)能力。使用新的提示策略,GIPCOL 在三个 CZSL 基准测试中取得了最新的 AUC 结果,包括 MIT-States、UT-Zappos 和 C-GQA 数据集,相比之前的非 CLIP 和基于 CLIP 方法,在封闭和开放设置下都取得了最新的结果。我们的研究结果具有启发意义,可为 CZSL 的有效提示设计提供指导。
Nov, 2023
本文探讨使用独立学习的提示符是否可以通过提示代数,组合不同任务的模型。我们考虑使用提示调整的视觉语言模型 (VLM) 作为我们的基本分类器,形式化地定义提示代数的概念,提出了约束提示调整来改善复合分类器的性能。我们证明了我们方法的有效性对象分类和属性分类数据集,我们的复合模型平均准确度与最佳基本模型相差不到 2.5%,在 UTZappos 上,平均提高了 8.45%分类准确率。
Jun, 2023
通过提出 Multi-Modal Prompt Tuning(MMPT)框架,我们实现了 Open World Compositional Zero-Shot Learning(OW-CZSL)任务的新的最先进结果。在 UT-Zappos 数据集上,MMPT 将 AUC 得分提高到 29.8%,而之前的最好分数为 26.5%。在更具挑战性的 MIT-States 数据集上,MMPT 的 AUC 得分优于当前的最先进方法 1.5 倍。
Dec, 2023
本研究提出了一种基于一致性的自适应提示设计方法,可以从大型语言模型的零样本输出中选择和构建示例,进而显著提高了零样本情况下三种不同大型语言模型的推理任务的性能。
May, 2023
通过使用 Composition Transformer(CoT)框架,我们提出了一种简单可扩展的方法来解决组合式零样本学习(CZSL)中的上下文问题、视觉特征可辨识性问题和真实世界组合数据的长尾分布问题;CoT 框架通过底层的自下而上方式提取代表性的物体嵌入,并通过顶层的自上而下方式以一种显式建模上下文性的对象引导注意力模块生成代表性的属性嵌入;我们还开发了一种简单的少数类属性增广(MAA)方法,通过混合两张图像和过采样少数类属性来合成虚拟样本,以解决不平衡的数据分布所引起的预测偏差;我们的方法在多个基准测试集上达到了最先进的性能,包括 MIT-States,C-GQA 和 VAW-CZSL;此外,我们还展示了 CoT 在提高视觉辨识能力和解决因不平衡数据分布而引起的模型偏差方面的有效性。
Aug, 2023
通过 Meta-Prompting for Visual Recognition (MPVR) 方法,仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入,自动产生一组多样的类别特定提示,从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上,使用多个 LLMs 和 VLMs 测试,MPVR 可以有效地推广,比 CLIP 提高了最高 19.8%和 18.2%(平均 20 个数据集上分别为 5.0%和 4.5%),依赖于 GPT 和 Mixtral LLMs。
Mar, 2024
在这篇论文中,我们提出渐进式基于语言的观察(PLO)方法,通过预测基于预先观察到的原语的组合类别,动态确定较好的原语观察顺序,使模型能够逐步理解图像内容。通过在三个具有挑战性的数据集上进行广泛实验,我们证明了 PLO 方法相比于最先进的方法,具有更好的组合识别能力。
Nov, 2023