图形化结构表示用于视觉问题回答
本研究提出了一种基于场景图的自然语言问答模型 GraphVQA,该模型采用语言引导的图神经网络,并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间,并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明,GraphVQA 明显优于现有模型(88.43% 对 94.78%)。
Apr, 2021
本论文提出了一种基于图形的视觉问答新方法,该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念,旨在学习能够捕捉问题特定交互的图像表示。该方法在 VQA v2 数据集上获得了 66.18%的准确率,证明了其可解释性。
Jun, 2018
本文通过实验探讨使用场景图(Scene Graphs)解决视觉问答(Visual Question Answering)任务。作者采用图像 + 问题架构研究场景图的各种生成技术,建议一套训练课程以利用人类注释和自动生成的场景图,并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究,是其类型中的首次探索。
Jan, 2021
研究使用深度学习框架解决视觉问答任务的方法,探索 LSTM 网络和 VGG-16、K-CNN 卷积神经网络提取图像特征,将其与问题的词嵌入或句子嵌入相结合进行答案预测。在 Visual Question Answering Challenge 2016 中获得了 53.62%的准确率。
Oct, 2016
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法,使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起,并将融合的信息进一步结合生成动态信息,最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。
Nov, 2015