CVPRJun, 2023

自我增强在基础视觉语言模型的文本图像检索中的应用改进

TL;DR本篇研究提出了一个基于自我增强框架 (A^{3} R) 的跨模态图像检索方法,在领域特定任务中较传统方法表现更好,这个方法采用属性增强的策略来丰富文本描述,并且提出了一种调整重排的方法来寻找文本检索查询和候选图像的表征空间,因此实现了对基线和其他团队解决方案在不引入任何额外样本的情况下实现显著改进。