ICMLJun, 2024

视觉 - 文本交叉对齐:在视觉 - 语言模型中优化相似度评分

TL;DR使用预训练的视觉 - 语言模型对查询图像和细致的文本描述进行对齐可以显著增强零样本性能,因此我们提出了一种加权视觉 - 文本交叉对齐(WCA)方法,该方法通过局部视觉提示技术确定查询图像中的局部视觉区域,并通过创建基于预训练视觉 - 语言模型的相似性矩阵将这些局部视觉区域与细致的描述进行对齐,然后根据此矩阵中的加权相似度开发了一个评分函数来确定查询图像与每个类别的对齐情况,实验证明我们的方法显著提高了零样本性能,结果甚至可以与少样本学习方法相媲美。