Jun, 2023
对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to
Enhance Visio-Linguistic Fine-grained Understanding
TL;DR为了解决Vision and Language Models对于细致的理解和fine-grained任务的挑战,本研究提出一种基于intra-modal和cross-modal rank loss的策略,该策略不需要额外的注释或参数,可应用于任何使用图像-文本对比损失训练的VLMs。在应用于CLIP上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了X-VLM在细粒度推理上的表现。