Jul, 2024

用辅助文本描述的跨模态注意力对齐网络用于零样本基于素描的图像检索

TL;DR本文研究零样本基于手绘图像检索(ZS-SBIR)问题,利用大规模预训练语言模型为图像提供辅助文本描述,通过交叉注意力机制在文本 - 手绘图像和文本 - 真实图像之间进行特征交换和对齐,实现零样本泛化能力,实验结果显示在三个基准数据集上,相比现有的 ZS-SBIR 方法,我们具有卓越的性能。