May, 2023

图像 - 文本 - 图形空间粗糙到精细对比学习,旨在提高视觉语言组合能力

TL;DR通过构建图像场景的文本表示形式,提出了一种图形分解和增强框架以进行对比学习,同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术,通过大量实验证明了该方法的有效性。