SPTNet：利用空间提示调整的高效广义类别发现替代框架

ICLRMar, 2024

SPTNet：利用空间提示调整的高效广义类别发现替代框架

SPTNet: An Efficient Alternative Framework for Generalized Category Discovery with Spatial Prompt Tuning

Hongjun Wang, Sagar Vaze, Kai Han

TL;DR一种名为 SPTNet 的两阶段适应方法，通过迭代优化模型参数和数据参数，以及考虑图像数据的空间属性的 SPT 方法，显著提高了广义类别发现任务的准确性，在 SSB 上的平均准确度高达 61.4%。

Abstract

generalized category discovery (gcd) aims to classify unlabelled images from both `seen' and `unseen' classes by transferring knowledge from a set of labelled `seen' class images. A key theme in existing

generalized category discovery gcd sptnet spatial prompt tuning ssb

发现论文，激发创造

基于分离原型网络的泛化类别发现

提出了一种名为 Decoupled Prototypical Network 的新模型，能够解耦已知和新类别，显式地从标记数据到未标记数据转移类别特定知识，捕捉高级语义信息，并通过语义加权软赋值减轻硬伪标签噪声，该模型在多个基准数据集上表现优于现有技术。

Nov, 2022

SPT：多任务提示学习的半参数提示调整

SPT 是一种半参数化的提示微调方法，其包含一个内存库，可以根据离散提示检索记忆提示，并通过 Fine-Tuning GLUE 数据集以及在五个自然语言处理任务类别下评估零 - shot 泛化以及在 SuperGLUE 数据集上预训练，众多实验证明了其有效性。

Dec, 2022

频谱提示调整：为零 - shot 语义分割揭示未见类别

通过引入 SPT-SEG 方法，我们改善了 CLIP 的自适应能力，使其能够从图像到像素的转换，并采用高频和低频信息来引导网络的空间焦点，从而实现精确的像素级预测结果。在两个公共数据集上进行了大量实验证明我们方法的优越性，在处理未见类别方面表现出色。

Dec, 2023

基于知识的提示调优通用视觉语言模型

通过设计两种类型的知识感知提示，离散提示和学习连续提示，以及视觉编码器的适应头部，实现针对视觉 - 语言模型的知识感知提示调整（KAPT）框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比，KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。

Aug, 2023

LSPT: 长期空间提示调整用于视觉表示学习

长期空间提示调整 (LSPT) 是一种革命性的视觉表示学习方法，通过引入长期的门控提示，巧妙地结合了时间编码和空间编码，提高了视觉类别的区分和识别能力，同时在 5 个 FGVC 和 19 个 VTAB-1K 基准测试中展示了优于其他方法的性能。

Feb, 2024

通过图像适应提示调整的复合文本引导

对视觉语言模型进行复合文本引导的提示调整 (TGP-T)，通过引入文本监督和视觉特征对齐模块 (Bonder)，可以显著降低 GPU 内存占用，同时实现了卓越的性能。

Dec, 2023

基于结构的提示增强图神经网络

图神经网络 (GNN) 在学习图数据的语义方面具有很强的能力。最近，一种名为 “预训练、提示” 的新范式在利用较少监督数据将 GNNs 适应各种任务方面取得了有希望的结果。成功的这种范式可以归因于预训练和面向任务的提示调整之间更一致的目标，其中预训练知识可以有效地转移到下游任务。然而，现有研究中一个被忽视的问题是，在预训练阶段利用图的结构信息来学习节点表示，而在提示调整阶段却被忽略了。为了弥合这一差距，我们提出了一种新颖的基于结构的 GNN 提示方法，即 SAP，它在预训练和提示调整阶段都一致地利用了结构信息。具体来说，SAP 使用双视图对比学习来对齐节点属性和图结构的潜在语义空间，并在提示的图中加入结构信息以引发更多预训练知识。我们在节点分类和图分类任务上进行了大量实验证明了 SAP 的有效性。此外，我们还表明 SAP 可以在同质和异质图上的更具挑战性的小样本场景中实现更好的性能。

Oct, 2023

通用类别发现的转移和对齐网络

广义类别发现任务中，传统方法在已知类别上的表现较好，但在新颖类别上表现不佳。为了减轻这两个问题，我们提出了一种转移和对齐网络 (TAN)，它包含两种知识转移机制来校准偏倚知识和两种特征对齐机制来学习判别特征。我们的结果显示，我们的模型在新颖类别上表现优于现有方法。

Dec, 2023

SA$^2$VP：空间对齐和自适应视觉提示

通过学习二维提示令牌映射来进行图像分类的细粒度提示，以模型化输入图像的空间关系和提高有效提示能力。

Dec, 2023

视觉 - 语言模型中零 - shot 泛化的测试时提示调整

本文提出一种叫做测试时提示调整 (TPT) 的方法，可在单个测试样本上实时学习适应性提示，优化提前提供的 CLIP 模型动态调整提示，以最小化模型预测时的不确定度，提高 CLIP 模型的泛化能力。实验结果表明，TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6％，并达到了使用额外培训数据的最新先进方法的性能水平。

Sep, 2022