ICCVOct, 2023

SelfGraphVQA:基于自监督图神经网络的基于场景的问题回答

TL;DR通过使用预训练场景图生成器从图像中提取场景图,并应用语义保持增强和自监督技术,我们引入了 SelfGraphVQA 框架,改进了图表示在视觉问答任务中的利用,从而避免昂贵和潜在有偏的注释数据,并通过图像增强创建提取图的多个视图,通过优化它们表示中的信息内容来学习联合嵌入。我们实验并证明了提取的场景图对于视觉问答非常有效,并且通过强调视觉信息的重要性来提升整体性能,为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。