Jun, 2023

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

TL;DR为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战,本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略,该策略不需要额外的注释或参数,可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了 X-VLM 在细粒度推理上的表现。