Aug, 2023

跨模态检索遇见推理:通过跨模态检索提升零样本分类

TL;DR通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。