Feb, 2025

基于对比语言-图像预训练的对象中心绑定

TL;DR本研究解决了目前视觉语言模型在理解复杂组合场景时的局限性,提出了一种新颖的方法,通过引入归纳偏见来增强预训练CLIP模型的组合理解能力,而无需使用额外的硬负样本。研究结果显示,该模型在多对象组合理解上提升了CLIP模型的性能,并为准确、样本高效的复杂场景图像-文本匹配开辟了新途径。