VGStore: 查询 RDF 场景图的多模式扩展 SPARQL
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系,从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取,取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。
Oct, 2019
VisualSem 是一个高质量的知识图谱,包括具有多语言注释、多幅图像和视觉相关关系的节点,并提供了可以用作输入的图像或句子并检索知识图谱中实体的神经多模态检索模型。
Aug, 2020
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
我们提出了一种基于知识图谱和语义网络技术的 Vision Knowledge Graph(VisionKG),用于链接、组织和管理具有异构特征的视觉数据集,提供简单访问和查询不同格式和分类法的最新视觉数据集,增强语义丰富性并通过 SPARQL 提供多种数据检索与探索服务,集成了 30 个数据集和四个流行 CV 任务,展示了在 CV 流程中的多种应用场景。
Sep, 2023
ERGS 是一个基于 JanusGraph 的语义图存储系统,它可让任何遵循 Apache Tinkerpop 的图数据库存储和查询 RDF 数据集,并通过 SPARQL 转换模块将其转化为 Gremlin 遍历的序列。
Sep, 2022
基于序列生成的新型开放词汇的场景图生成框架,通过使用视觉语言预训练模型和显式关系建模知识,实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。
Apr, 2024
本研究论文提出了基于神经符号方法,利用场景图像来进行文本图像检索的解决方案,并训练了一种可学习的图匹配算法来实现检索任务,并实现了一个基于交互式问答的迭代检索框架。
Nov, 2019
我们介绍了一种开放词汇的 3D 场景图(OVSG),它是一个形式化的框架,用于将各种实体,如物体实例、代理和区域,与自由文本查询进行关联。与传统的基于语义的物体定位方法不同,我们的系统支持上下文感知的实体定位,允许查询,如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比,OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明,我们提出的方法明显超越了以前基于语义的定位技术的性能。此外,我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。
Sep, 2023