通过视听信息传递将自然图像场景图映射到实体化
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019
研究使用视觉图像中的基于场景图谱的结构化表示,通过端到端模型建模图像中对象之间的关系,通过消息传递技术可以更好预测对象及其关系, 实验表明该模型显著优于以前的方法。
Jan, 2017
通过视觉语言辅助伪标记,我们提出了 3D-VLAP,一种弱监督的三维场景图生成方法,能够对三维点云场景进行语义对齐并生成场景图,从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。
Apr, 2024
本研究提出了一种基于场景图的自然语言问答模型 GraphVQA,该模型采用语言引导的图神经网络,并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间,并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明,GraphVQA 明显优于现有模型(88.43% 对 94.78%)。
Apr, 2021
该论文提出了第一个像素级分割 - 基于场景图生成的框架,并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题,其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模,并引入了新颖的高斯注意机制实现像素级关系预测,并且该框架支持端到端可训练。
Apr, 2021
本文提出了一种神经传递信息的方法来与其环境相匹配的新物体进行增强,该方法能够预测适合位置的物体类型的概率分布,并在密集图中传递学习消息来处理物体相之间的空间和结构关系,通过注意机制加权消息,在 SUNCG 数据集中比其他方法更准确地预测场景中缺失的物体,并展示了基于此方法的其他应用,包括基于上下文的 3D 对象识别和迭代场景生成。
Jul, 2019
本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG),通过使用场景图中的对象之间的关系,构造问答对话方式以消除人类命令的歧义和错误,该模型在现实场景中表现出可接受的性能,可以有效地通过回问式问答消除歧义的问题。
Jan, 2022
通过引入边缘双场景图生成(EdgeSGG)和双消息传递神经网络(DualMPNN),本论文提出了一种建模多对象关系的新方法,可以准确地预测对象之间的详细关系,并在各个场景图生成子任务中实现了显著的性能提升,同时有效缓解了长尾分布问题。
Nov, 2023
本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务,并构造了一个新的数据集 VLParse,提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。
Mar, 2022
通过结合神经场景图生成器和最先进的模型,我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试,在端到端的视觉和语言应用中捕获视觉关系。
Sep, 2019