SCoRD：基于文本增强数据的主体条件关系检测

Aug, 2023

SCoRD：基于文本增强数据的主体条件关系检测

SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data

Ziyan Yang, Kushal Kafle, Zhe Lin, Scott Cohen, Zhihong Ding...

TL;DR基于 Open Images 数据集，我们提出了一种挑战性的 OIv6-SCoRD 基准，通过条件化输入主体来预测其与场景中其他对象的所有关系及其位置。我们提出了一种自回归模型，通过将输出解释为一个标记序列，预测主体的关系、对象和对象位置，提高了关系 - 对象和对象 - 框预测的泛化能力。

Abstract

We propose subject-conditional relation detection scord, where conditioned on an input subject, the goal is to predict all its relations to other objects in a scene along with their locations. Based on the

subject-conditional relation detection scord open images dataset auto-regressive model scene-graph prediction

发现论文，激发创造

利用辅助文本进行深度识别未见视觉关系

提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型，通过共同的文本图像表示方法实现文本补充图像数据，结果表明图像中没有的文本信息可以显著提高模型性能

Oct, 2019

MORE: 多阶关系挖掘用于 3D 场景中的密集字幕生成

本文提出 MORE，一种多阶关系挖掘模型，通过逐步建立空间布局图卷积和基于对象中心的三元组注意力图来捕捉和利用三维场景中的复杂关系，以生成更全面和描述性的标题，证明了 MORE 和其组件的有效性，并超过了现有的最新方法。

Mar, 2022

物体关系预测的逻辑偏差学习

通过因果推断进行对象关系预测的场景图生成方法，结合对象增强模块，在 Visual Gnome 150 数据集上取得了有效的实验结果，为决策模型的基础建模提供了巨大潜力。

Oct, 2023

通过自动派生的数据集改进文本到图像生成中的显式空间关系

现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系，我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此，我们提出了一种自动方法，给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集，其中包含 990 万个图像标题对进行训练，并且包含超过 6 万个用于评估的标题。为了测试泛化性能，我们还提供了一个 ' 未见过 ' 的分割，其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型（称为 SD$_{SR4G}$）可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效，表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法，并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。

Mar, 2024

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

探索基于图推理的文本视觉问答中的稀疏空间关系

TextVQA 中解决冗余关系推理的稀疏空间图网络 (SSGN) 被提出，通过空间感知关系修剪技术识别最重要的连接或消除冗余连接，在图学习中考虑物体 - 物体关系和 OCR-OCR 标记关系。实验证明 SSGN 在 TextVQA 和 ST-VQA 数据集上取得了令人满意的性能表现，并且某些可视化结果进一步证明了我们方法的可解释性。

Oct, 2023

基于一次学习的物体关系检测

该研究提出了一种称为 Semantics Induced Learner（SIL）的模型，用于解决图像理解中的对象关系检测任务，结合了自底向上和自顶向下的注意力机制，通过一次学习就能够有效地和稳健地适应大量具有不同外观的对象关系，证明了该框架在目标关系检测方面的有效性。

Jul, 2018

通过空间关系建模改进视觉语言推理

通过构建空间关系图并设计两种预训练任务，即目标位置回归和空间关系分类，本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。

Nov, 2023

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

基于语义关系推理的稳定少样本目标检测

通过引入显式关系推理和语义嵌入，利用少量数据探测新颖物体的性能较稳定且鲁棒，相比于显式和隐式样本较少时可以取得明显更好的结果。

Mar, 2021