Mar, 2024
未知问题,唯一的空白:揭示CLIP在开放领域泛化中的潜力
Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open
Domain Generalization
TL;DR通过引入 ODG-CLIP,我们利用视觉语言模型CLIP的语义优势来解决开放域泛化中的局限性,实现了在不同领域和类别之间进行泛化的挑战。我们提出了三个主要创新:首先,我们将ODG看作一个多类别分类问题,包括已知类别和新类别,我们使用一个独特的提示来检测未知类别样本,并使用稳定扩散模型生成开放类别的代理图像。其次,我们设计了一种新颖的可视化风格中心提示学习机制,以实现针对特定领域的分类权重。最后,我们通过将提示空间中得出的类别区分知识注入图像,增强了CLIP的视觉嵌入的真实性,并引入了一个新的目标来保证在不同领域中这种注入的语义一致性。通过在不同数据集上进行严格测试,包括封闭和开放集DG背景,ODG-CLIP显示出明显的优越性,性能提升在8%-16%之间。