Jun, 2023

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

TL;DR为了解决Vision and Language Models对于细致的理解和fine-grained任务的挑战,本研究提出一种基于intra-modal和cross-modal rank loss的策略,该策略不需要额外的注释或参数,可应用于任何使用图像-文本对比损失训练的VLMs。在应用于CLIP上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了X-VLM在细粒度推理上的表现。