CVPRMar, 2023

零样本全域面向素描图像检索,并具有可解释性

TL;DR本文研究了零短距离素描图像检索(ZS-SBIR)问题,并提出了一种基于 transformer 的跨模态网络,包括可学习 tokenizer 的自我关注模块,计算视觉 tokens 之间的交叉关注模块,以及基于核的相关网络,通过对组之间的比较,实现了优秀的性能,同时通过可视化 tokens 实现了解释性。