Nov, 2022

InDiReCT: 语言引导的零样本深度度量学习(Deep Metric Learning)用于图像

TL;DR本研究提出了一种基于自然语言的零样本度量学习方法,应用于图像检索系统中,使用自然语言控制图像表征属性,通过使用文本提示进行训练,并利用 CLIP 模型将文本提示嵌入到图像嵌入空间中,从而实现根据不同的相似度概念创建自定义嵌入空间的快速训练和易于使用的方法。实验结果表明,在仅使用自然语言进行训练的情况下,此方法性能优于强基线模型,接近于完全监督模型。