SCoRD:基于文本增强数据的主体条件关系检测
提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型,通过共同的文本图像表示方法实现文本补充图像数据,结果表明图像中没有的文本信息可以显著提高模型性能
Oct, 2019
本文提出 MORE,一种多阶关系挖掘模型,通过逐步建立空间布局图卷积和基于对象中心的三元组注意力图来捕捉和利用三维场景中的复杂关系,以生成更全面和描述性的标题,证明了 MORE 和其组件的有效性,并超过了现有的最新方法。
Mar, 2022
通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
Oct, 2023
现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系,我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此,我们提出了一种自动方法,给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集,其中包含 990 万个图像标题对进行训练,并且包含超过 6 万个用于评估的标题。为了测试泛化性能,我们还提供了一个 ' 未见过 ' 的分割,其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型(称为 SD$_{SR4G}$)可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效,表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法,并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。
Mar, 2024
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
TextVQA 中解决冗余关系推理的稀疏空间图网络 (SSGN) 被提出,通过空间感知关系修剪技术识别最重要的连接或消除冗余连接,在图学习中考虑物体 - 物体关系和 OCR-OCR 标记关系。实验证明 SSGN 在 TextVQA 和 ST-VQA 数据集上取得了令人满意的性能表现,并且某些可视化结果进一步证明了我们方法的可解释性。
Oct, 2023
该研究提出了一种称为 Semantics Induced Learner(SIL)的模型,用于解决图像理解中的对象关系检测任务,结合了自底向上和自顶向下的注意力机制,通过一次学习就能够有效地和稳健地适应大量具有不同外观的对象关系,证明了该框架在目标关系检测方面的有效性。
Jul, 2018
通过构建空间关系图并设计两种预训练任务,即目标位置回归和空间关系分类,本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。
Nov, 2023
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017