未知问题，唯一的空白：揭示CLIP在开放领域泛化中的潜力

Mar, 2024

未知问题，唯一的空白：揭示CLIP在开放领域泛化中的潜力

Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization

Mainak Singha, Ankit Jha, Shirsha Bose, Ashwin Nair, Moloud Abdar...

TL;DR通过引入 ODG-CLIP，我们利用视觉语言模型CLIP的语义优势来解决开放域泛化中的局限性，实现了在不同领域和类别之间进行泛化的挑战。我们提出了三个主要创新：首先，我们将ODG看作一个多类别分类问题，包括已知类别和新类别，我们使用一个独特的提示来检测未知类别样本，并使用稳定扩散模型生成开放类别的代理图像。其次，我们设计了一种新颖的可视化风格中心提示学习机制，以实现针对特定领域的分类权重。最后，我们通过将提示空间中得出的类别区分知识注入图像，增强了CLIP的视觉嵌入的真实性，并引入了一个新的目标来保证在不同领域中这种注入的语义一致性。通过在不同数据集上进行严格测试，包括封闭和开放集DG背景，ODG-CLIP显示出明显的优越性，性能提升在8%-16%之间。

Abstract

We delve into open domain generalization (ODG), marked by domain and category shifts between training's labeled source and testing's unlabeled target domains. Existing solutions to ODG face limitations due to constrained generalizations of traditional CNN backbones and errors in detect