ICCVDec, 2023

RCA-NOC: 相对比对对齐用于新颖物体字幕生成

TL;DR通过相对对比学习,本研究提出了一种新颖的方法来学习视觉和语义对齐,从而实现新颖物体的描述。针对每个图像,通过利用基于 CLIP 的正负样本的相对性质增加标签,设置适当的对比学习目标,并且将每个增强标签在列表中的排名作为相对相关性标签来对比每个排名靠前的标签和一组排名较低的标签。通过这个学习目标,使得排名靠前的标签与图像和文本上下文的兼容性比排名较低的标签更好,从而提高了学习到的多模态表示的判别能力。在两个数据集上对这种方法进行评估,并且显示了 RCA-NOC 方法在改进新颖物体描述的视觉语言表示方面的显著优势,证明了其有效性。