面向细粒度视觉识别的生成类提示学习
本研究通过将多尺度图像特征集成到提示中,提出了一种对于分布偏移具有鲁棒性的提示学习方法,实验结果表明,这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。
Apr, 2023
本文介绍了一种新的PrOmpt cLass lEarning (POLE)策略,在弱监督语义分割(WSSS)问题上实现最先进的性能,并强调了语言-视觉模型在WSSS中的优势和提示学习在该问题中的潜力。
Jun, 2023
提出了一种从仅包含图像的数据集中生成图像特定的精细文本描述,并证明这些文本描述可以用于改进分类的方法GIST,并通过在图像和生成的文本对上对视觉语言模型进行微调以学习对齐的视觉语言表示空间,从而在多个领域的四个不同领域的细粒度分类数据集上实现了4.1%的准确率提升,并在全样本和少样本情况下实现了类似的改进。
Jul, 2023
在本论文中,我们首先展示了,经过足够时间的微调但没有适当的正则化,视觉-语言模型在给定数据集中往往会过度拟合已知类别,导致对未知类别的表现下降。然后,我们提出了一种新颖的方法OGEN来解决这个问题,在关注点主要是改进经过微调模型的未知类别(OOD)泛化能力。具体而言,我们引入了一种类条件特征生成器,通过仅使用任何未知类别的类名,合成OOD特征。这些合成特征将提供关于未知类别的有用知识,并在联合优化时有助于规范ID和OOD数据之间的决策边界。同样重要的是,我们的自适应自蒸馏机制用于规范特征生成模型,在联合优化期间自适应地传递模型状态之间的知识,以进一步防止过度拟合。实验证实,我们的方法在不同设置下提供了令人信服的OOD泛化性能增益。
Jan, 2024
该研究提出了两个简单的模块来解决Vision-Language模型在少样本类增量学习方面的挑战,并在新引入的细粒度数据集上实验结果表明,相比基准模型平均提高了10个百分点,而所需的可训练参数少至8倍。
Mar, 2024
通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题,并在测试中取得明显优于其他方法的结果。
Apr, 2024
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
本研究针对现有视觉语言模型在细粒度分类中的不足,提出了一种新的生成类提示学习(GCPL)方法和对比多类提示学习(CoMPLe)方法。这些方法通过文本到图像的扩散模型在少量样本下显著提升了类嵌入的视觉语言协同,实验证明了其在少样本图像识别方面的优越性,展示了极大的应用潜力。
Sep, 2024
本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练(RPP),通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签,来提升模型的适应能力和泛化性能。实验表明,RPP在多个基准测试中表现出色,证明了其在各类视觉识别任务中的强大传递能力。
Sep, 2024
本研究针对现有视觉语言模型面临的生成与判别训练各自的局限性,提出了一种统一的方法,整合了两种训练模式的优势。通过引入结构诱导训练策略和动态时间规整框架,我们的方法显著提升了多模态大语言模型对全局语义和细粒度语义的捕捉能力,实验证明该方法在多项生成任务上实现了最新的成果,尤其在认知与区分能力要求较高的任务中表现优异。
Nov, 2024