面向细粒度视觉识别的生成类提示学习

Sep, 2024

面向细粒度视觉识别的生成类提示学习

Towards Generative Class Prompt Learning for Fine-grained Visual Recognition

Soumitri Chattopadhyay, Sanket Biswas, Emanuele Vivoli, Josep Lladós

TL;DR该研究解决了基础视觉-语言模型在细粒度分类任务中的表现不足以及跨域迁移学习的挑战。提出的生成类提示学习（GCPL）和对比多类提示学习（CoMPLe）方法，通过生成建模显著提升了类别嵌入的视觉语言协同，并在少量样本图像识别任务中表现优异，展现出显著的改进效果。

Abstract

Although foundational Vision-Language Models (VLMs) have proven to be very successful for various semantic discrimination tasks, they still struggle to perform faithfully for fine-grained categorization. Moreover, foundational models trained on one domain do not generalize well on a di

发现论文，激发创造

构建强韧的图像-语言模型提示

本研究通过将多尺度图像特征集成到提示中，提出了一种对于分布偏移具有鲁棒性的提示学习方法，实验结果表明，这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。

Apr, 2023

提示类别探讨弱监督语义分割中的提示类别学习的力量

本文介绍了一种新的PrOmpt cLass lEarning (POLE)策略，在弱监督语义分割（WSSS）问题上实现最先进的性能，并强调了语言-视觉模型在WSSS中的优势和提示学习在该问题中的潜力。

Jun, 2023

生成图像特定文本改进细粒度图像分类

提出了一种从仅包含图像的数据集中生成图像特定的精细文本描述，并证明这些文本描述可以用于改进分类的方法GIST，并通过在图像和生成的文本对上对视觉语言模型进行微调以学习对齐的视觉语言表示空间，从而在多个领域的四个不同领域的细粒度分类数据集上实现了4.1%的准确率提升，并在全样本和少样本情况下实现了类似的改进。

Jul, 2023

克服视觉语言模型微调的问题：针对OOD泛化

在本论文中，我们首先展示了，经过足够时间的微调但没有适当的正则化，视觉-语言模型在给定数据集中往往会过度拟合已知类别，导致对未知类别的表现下降。然后，我们提出了一种新颖的方法OGEN来解决这个问题，在关注点主要是改进经过微调模型的未知类别（OOD）泛化能力。具体而言，我们引入了一种类条件特征生成器，通过仅使用任何未知类别的类名，合成OOD特征。这些合成特征将提供关于未知类别的有用知识，并在联合优化时有助于规范ID和OOD数据之间的决策边界。同样重要的是，我们的自适应自蒸馏机制用于规范特征生成模型，在联合优化期间自适应地传递模型状态之间的知识，以进一步防止过度拟合。实验证实，我们的方法在不同设置下提供了令人信服的OOD泛化性能增益。

Jan, 2024

多模态小样本类增量细粒度数据学习的简化方法

该研究提出了两个简单的模块来解决Vision-Language模型在少样本类增量学习方面的挑战，并在新引入的细粒度数据集上实验结果表明，相比基准模型平均提高了10个百分点，而所需的可训练参数少至8倍。

Mar, 2024

PromptSync：通过分类感知的原型对齐和判别消除视觉语言模型中的领域差距

通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题，并在测试中取得明显优于其他方法的结果。

Apr, 2024

改进提示调整中的文本语义是否可以提高VLM的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024

面向少量样本视觉识别的生成类提示学习

本研究针对现有视觉语言模型在细粒度分类中的不足，提出了一种新的生成类提示学习（GCPL）方法和对比多类提示学习（CoMPLe）方法。这些方法通过文本到图像的扩散模型在少量样本下显著提升了类嵌入的视觉语言协同，实验证明了其在少样本图像识别方面的优越性，展示了极大的应用潜力。

Sep, 2024

重新审视视觉语言模型的提示预训练

本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Sep, 2024

多模态大语言模型的统一生成与判别训练

本研究针对现有视觉语言模型面临的生成与判别训练各自的局限性，提出了一种统一的方法，整合了两种训练模式的优势。通过引入结构诱导训练策略和动态时间规整框架，我们的方法显著提升了多模态大语言模型对全局语义和细粒度语义的捕捉能力，实验证明该方法在多项生成任务上实现了最新的成果，尤其在认知与区分能力要求较高的任务中表现优异。

Nov, 2024