Mar, 2024
利用多模态 CLIP 揭示广义类别的潜力
GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery
Enguang Wang, Zhimao Peng, Zhengyuan Xie, Xialei Liu, Ming-Ming Cheng
TL;DR通过引入文本信息和多模态潜力的方法,在广义类别发现任务中,我们提出了一种基于文本嵌入综合器的模型,该模型生成用于未标记样本的伪文本嵌入,并通过视觉和语义信息的相互增强,超越了现有方法,在所有广义类别发现基准上取得了新的最佳效果。