利用场景图进行视觉问答的实证研究
本文通过实验探讨使用场景图(Scene Graphs)解决视觉问答(Visual Question Answering)任务。作者采用图像 + 问题架构研究场景图的各种生成技术,建议一套训练课程以利用人类注释和自动生成的场景图,并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究,是其类型中的首次探索。
Jan, 2021
本研究提出了一种基于场景图的自然语言问答模型 GraphVQA,该模型采用语言引导的图神经网络,并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间,并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明,GraphVQA 明显优于现有模型(88.43% 对 94.78%)。
Apr, 2021
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于 CNN/LSTM 的 VQA 方法,本方法获得了显著的改善,其准确性从 71.2%提高到 74.4%,在不同的 “平衡” 场景中的准确性则提高了 4.4%。
Sep, 2016
通过使用预训练场景图生成器从图像中提取场景图,并应用语义保持增强和自监督技术,我们引入了 SelfGraphVQA 框架,改进了图表示在视觉问答任务中的利用,从而避免昂贵和潜在有偏的注释数据,并通过图像增强创建提取图的多个视图,通过优化它们表示中的信息内容来学习联合嵌入。我们实验并证明了提取的场景图对于视觉问答非常有效,并且通过强调视觉信息的重要性来提升整体性能,为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。
Oct, 2023
本文介绍了一种新的方法来生成自然语言的解释,解释视觉问答(VQA)问题的答案,其包含图像中支持答案的证据,使用了场景图中的实体注释和 VQA 模型生成的关注图来证明。在 Visual Genome(VG)数据集上运行算法,并进行内部用户研究,证明了我们的方法的有效性。
Feb, 2019
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。
Dec, 2023
本论文提出了一种基于图形的视觉问答新方法,该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念,旨在学习能够捕捉问题特定交互的图像表示。该方法在 VQA v2 数据集上获得了 66.18%的准确率,证明了其可解释性。
Jun, 2018