VGStore: 查询 RDF 场景图的多模式扩展 SPARQL

Sep, 2022

VGStore: 查询 RDF 场景图的多模式扩展 SPARQL

VGStore: A Multimodal Extension to SPARQL for Querying RDF Scene Graph

Yanzeng Li, Zilong Zheng, Wenjuan Han, Lei Zou

TL;DR使用 RDF 存储多模态场景图数据集 Visual Genome，并扩展了 SPARQL 查询以回答包含颜色、空间等关系推理的问题，VGStore 演示了定制查询和显示多模态数据的有效性。

Abstract

semantic web technology has successfully facilitated many rdf models with rich data representation methods. It also has the potential ability to represent and store →

semantic web technology rdf models multimodal knowledge bases sparql visual genome

发现论文，激发创造

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

VisualSem: 一个高质量的视觉与语言知识图谱

VisualSem 是一个高质量的知识图谱，包括具有多语言注释、多幅图像和视觉相关关系的节点，并提供了可以用作输入的图像或句子并检索知识图谱中实体的神经多模态检索模型。

Aug, 2020

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

VisionKG：通过知识图谱释放视觉数据集的力量

我们提出了一种基于知识图谱和语义网络技术的 Vision Knowledge Graph（VisionKG），用于链接、组织和管理具有异构特征的视觉数据集，提供简单访问和查询不同格式和分类法的最新视觉数据集，增强语义丰富性并通过 SPARQL 提供多种数据检索与探索服务，集成了 30 个数据集和四个流行 CV 任务，展示了在 CV 流程中的多种应用场景。

Sep, 2023

表现性推理图存储：管理 RDF 和属性图数据库的统一框架

ERGS 是一个基于 JanusGraph 的语义图存储系统，它可让任何遵循 Apache Tinkerpop 的图数据库存储和查询 RDF 数据集，并通过 SPARQL 转换模块将其转化为 Gremlin 遍历的序列。

Sep, 2022

为语言模型赋予多模态知识图谱表达

本文提出使用外部知识图谱作为存储知识，并使用密集索引来检索以提高自然语言理解模型的参数效率，并通过两项下游任务证明了学习到的实体表示的实用性。

Jun, 2022

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

基于场景图的图像检索 -- CLEVR 数据集的案例研究

本研究论文提出了基于神经符号方法，利用场景图像来进行文本图像检索的解决方案，并训练了一种可学习的图匹配算法来实现检索任务，并实现了一个基于交互式问答的迭代检索框架。

Nov, 2019

基于上下文感知的实体定位和开放词汇 3D 场景图

我们介绍了一种开放词汇的 3D 场景图（OVSG），它是一个形式化的框架，用于将各种实体，如物体实例、代理和区域，与自由文本查询进行关联。与传统的基于语义的物体定位方法不同，我们的系统支持上下文感知的实体定位，允许查询，如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比，OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明，我们提出的方法明显超越了以前基于语义的定位技术的性能。此外，我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。

Sep, 2023