学习生成软提示用于组合式零样本学习
本文介绍了一种软提示学习的方法,用于Vision & Language模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离,进而提高模型性能,并能够训练虚拟类。在11个数据集上进行的广泛评估表明,该方法显著优于所有先前的软提示工作,并在大多数测试数据集上匹配和超越手工制作提示和CLIP的新类准确性。
Oct, 2022
提出了一种名为 DFSP 的新型框架,它结合了视觉-语言模型(VLM)用于无人先前经验认知的建立,通过可学习的软提示与状态和对象的矢量组合来建立它们之间的共同表示,并在语言和图像分支之间设计了一种跨模式分解融合模块,从而更好地学习它们之间的关系,提高了成对空间中未知构成的反应,从而缩小了已知集和未知集之间的域间隙。实验结果表明,该方法在三个具有挑战性的基准测试数据集上对于已有的最先进方法有显着的改善。
Nov, 2022
本文提出了一种使用CLIP模型的语言信息分布——PLID模型来增强光学识别任务中未知组合视觉概念的泛化性能,通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用MIT-States、UT-Zappos、C-GQA数据集的实验结果表明,PLID方法相较于其他方法表现更佳。
May, 2023
我们提出了GIP-COL(注入图结构的软提示用于组合学习),在提示为基础的学习框架内更好地探索预训练视觉-语言模型(VLMs)的组合式零样本学习(CZSL)能力。使用新的提示策略,GIPCOL在三个CZSL基准测试中取得了最新的AUC结果,包括MIT-States、UT-Zappos和C-GQA数据集,相比之前的非CLIP和基于CLIP方法,在封闭和开放设置下都取得了最新的结果。我们的研究结果具有启发意义,可为CZSL的有效提示设计提供指导。
Nov, 2023
通过引入Attribute-Guided Prompt Tuning方法,利用基于大型语言模型生成的原始视觉属性来优化视觉-语言模型,包括软提示调整、属性抽样以及负面提示,以提升其在新类别预测和超出分布泛化任务上的表现。
Nov, 2023
我们提出了一种多模态属性提示方法(MAP),通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉-语言模型(VLMs)在少样本情况下的一些局限性,实验结果表明我们的方法在11个数据集上表现优于现有方法。
Mar, 2024
通过Meta-Prompting for Visual Recognition (MPVR)方法,仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入,自动产生一组多样的类别特定提示,从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上,使用多个LLMs和VLMs测试,MPVR可以有效地推广,比CLIP提高了最高19.8%和18.2%(平均20个数据集上分别为5.0%和4.5%),依赖于GPT和Mixtral LLMs。
Mar, 2024
通过引入Grounding DINO并结合组合式软提示(Compositional Soft Prompting)和组合式预期(Compositional Anticipation)来增强物体检测的组合式零样本学习(Compositional Zero-Shot Learning),并通过对类似组合的模型混淆进行增量式调整,提供了一种在有限数据下学习各种组合的框架,并在额外数据可用时提高性能。
Jul, 2024
本文研究了传统提示学习方法在适应新任务时面临的挑战,如无法捕捉数据集中的多样性和易于过拟合。提出了一种混合软提示学习方法,通过路由模块动态选择适合每个实例的提示,从而大幅提高在少样本学习和领域泛化中的效果。该方法在11个数据集上的验证显示出明显的性能提升。
Sep, 2024
本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角,并最大化它们的互信息,研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外,引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明,其在特定任务性能和一般能力方面均具竞争力。
Oct, 2024