MMJan, 2024

弱监督语义分割的问题 - 答案跨语言图像匹配

TL;DR我们提出了一种基于问题回答跨语言图像匹配框架,利用视觉语言基础模型来最大化对图像的基于文本的理解,并引导激活图的生成,以解决现有激活地图方法在目标物体区域低激活和背景区域误激活的问题。