视觉关系变换器用于无偏场景图生成

ICCVAug, 2023

视觉关系变换器用于无偏场景图生成

Vision Relation Transformer for Unbiased Scene Graph Generation

Gopika Sudhakaran, Devendra Singh Dhami, Kristian Kersting, Stefan Roth

TL;DR近年来，场景图生成在视觉场景理解任务中受到越来越多的关注。本文提出了一种名为 VETO 的视觉关系变换器，采用新颖的实体关系编码器以捕捉实体的局部级线索，并引入一种名为 MEET 的互斥专家学习策略以消除对头部或尾部类别的偏见，实验结果表明，VETO + MEET 的预测性能比现有技术高出 47 个百分点，并且尺寸缩小了 10 倍。

Abstract

Recent years have seen a growing interest in scene graph generation (SGG), a comprehensive visual scene understanding task that aims to predict entity relationships using a relation encoder-decoder pipeline stack

scene graph generation relation encoder-decoder local-level cues mutually exclusive expert predictive performance

发现论文，激发创造

减少偏差的模型生成场景图

提出了一种基于自学知识的场景图生成模型训练方案，使用两个关系分类器减少标注偏差和稀疏标注造成的影响，并在多个标准场景图生成任务中观察到了显著的相对改进。

Aug, 2020

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Apr, 2022

从 Transformer 中提取出图形用于场景图生成的 EGTR

提出一种轻量级的一阶场景图生成（SGG）模型，通过充分利用 DETR 解码器的多头自注意力层中学习到的各种关系，使用浅层关系抽取头有效地提取关系图，并考虑到关系抽取任务对于物体检测任务的依赖，提出了一种新颖的关系平滑技术，根据检测到的物体质量自适应地调整关系标签，同时还提出了一个辅助任务 —— 连接性预测任务来预测物体对之间是否存在关系。

Apr, 2024

视觉关系检测和场景图生成的上下文翻译嵌入

提出一种基于 VTransE 方法的上下文增强翻译嵌入模型，可以捕捉常见和罕见关系，进而提升图像理解能力。该模型可以有效地识别已知关系和未知关系，同时在多个基准测试中取得了优秀的表现，特别是在场景图生成任务中表现尤为突出。

May, 2019

物体关系预测的逻辑偏差学习

通过因果推断进行对象关系预测的场景图生成方法，结合对象增强模块，在 Visual Gnome 150 数据集上取得了有效的实验结果，为决策模型的基础建模提供了巨大潜力。

Oct, 2023

SGTR：基于 Transformer 的端到端场景图生成

提出了一种基于 Transformer 的端到端框架，利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法，设计了图组装模块以推断适应性的进行双部分场景图形的构建，并在两个具有挑战性的基准测试中取得了最先进或可比的性能，并提高了推理效率。

Dec, 2021

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于 Transformer 的方法，称为 DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在 mR@50 和 mR@100 方面分别取得了 3.5％和 6.7％的显著改进，在全景场景图生成任务上甚至取得了 8.5％和 10.3％的更大改进。

Mar, 2024

场景图 ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于 Transformer 的图像编码器模型，用于开放词汇视觉关系检测，并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。

Mar, 2024

视频场景图生成的时空知识嵌入 Transformer

提出了一种将空间 - 时间知识嵌入到多头交叉注意力机制中的空间 - 时间知识嵌入变压器（STKET）模型，用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明，STKET 在不同设置下相对于当前算法的 mR@50 提升了 8.1％，4.7％和 2.1％。

Sep, 2023

使用虚词去偏以提升视觉 - 语言模型中的场景图生成

通过使用预训练的视觉 - 语言模型（VLMs）增强场景图生成（SGG）模型的表示，并结合语言模型估计（LM Estimation）来解决预训练与 SGG 之间的差距，我们的方法有效地处理了词汇偏见，加强了 SGG 的表示，并获得了显著的性能提升。

Mar, 2024