May, 2024

概念可视化:使用 WordNet 解释 CLIP 多模态嵌入

TL;DR我们提出了一个新的显著性方法,称为 Concept Visualization (ConVis),通过利用嵌入式多模态信息解释图像的 CLIP 嵌入。我们使用 WordNet 中的词汇信息计算任何概念的与任务无关的显著性图,并验证了我们对 WordNet 的使用,同时在目标定位基准测试中测试了 ConVis,并且展示了 Concept Visualizations 能够正确识别和定位图像的语义内容。此外,我们进行了用户研究,证明了我们的方法可以让用户了解模型的功能。