Nov, 2024
TripletCLIP:通过合成视觉-语言负例改善CLIP的组合推理能力
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic
Vision-Language Negatives
TL;DR本研究针对当前图像-文本数据集中缺乏组合多样性的问题,提出了一种新的对比预训练策略TripletCLIP。该方法通过在上下文学习中生成“硬”负向描述以及合成相应的负向图像,显著提高了CLIP的组合推理能力,在SugarCrepe基准测试中实现了超过9%的绝对提升,并改善了零样本图像分类和图像检索性能。