DiffAugment：基于扩散模型的长尾视觉关系识别

Jan, 2024

DiffAugment：基于扩散模型的长尾视觉关系识别

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition

Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le...

TL;DRVisual Relationship Recognition (VRR) using DiffAugment and Diffusion Models to address the imbalanced distribution of triplets, introducing a hardness-aware component and a subject/object-based seeding strategy, improving per-class accuracy on the GQA-LT dataset.

Abstract

The task of visual relationship recognition (VRR) aims to identify relationships between two interacting objects in an image and is particularly challenging due to the widely-spread and highly imbalanced distribution of triplets. To overcome the resultant pe

visual relationship recognition diffaugment diffusion models hardness-aware diffusion gqa-lt dataset

发现论文，激发创造

使用大词汇表探索长尾视觉关系识别

本文是对 Long-Tail Visual Relationship Recognition（LTVRR）任务的第一次大规模研究。通过引入 VG8K-LT 和 GQA-LT 等基于 Visual Genome 和 GQA 数据集的相关基准，研究了几种使用最先进的长尾模型在 LTVRR 设置中的性能。最后，介绍了一种 VilHub 损失和一种 RelMix 增强技术，能够显著提高性能，尤其是尾部类别。

Mar, 2020

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019

知识增强的少样本视觉关系检测

本研究提出了一个基于知识增强的少样本学习（few-shot learning）框架，利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识，从而提高了少样本学习的实用性和性能。与现有最先进模型相比，在常用的 Visual Genome 数据集的三个基准测试中，本方法的性能大幅超越了现有最先进模型。

Mar, 2023

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

视觉关系学习：魔鬼在细节之中

在研究中，我们提出了 Decoupled Training for Devil in the Tails（DT2）的假设并开发了一个名为 Alternating Class-Balanced Sampling（ACBS）的新方法，以应对视觉关系模型的长尾分布问题。我们的结果表明，相比于更复杂的方法，DT2-ACBS 极大地提升了场景图生成任务的简单架构的性能。这提示在解决这个问题时需要同时考虑复杂模型的发展和长尾问题。

Aug, 2021

VrR-VG: 聚焦视觉相关关系

通过构建一个名为 VrR-VG 的新场景图数据集，我们提出了一种通过修剪视觉不相关的关系来自动挖掘更有价值关系的新方法，并通过考虑实例、属性和关系来学习关系感知表征，从而系统性地提高了图像字幕和视觉问题回答的性能。

Feb, 2019

大规模视觉关系理解

该研究提出一种新的关系检测模型，将物体和关系嵌入到两个矢量空间中，同时保留了区分能力和语义关联性，并在基于 Visual Genome 的大规模和不平衡基准上展示了该模型的有效性。

Apr, 2018

视觉关系与属性检测的深度变化结构强化学习

本研究提出了一种基于深度强化学习算法的新方法 VRL，能够更好地理解场景中物体之间的相互关系和属性，并在大规模数据集上验证其优越性和预测能力。

Mar, 2017

利用辅助文本进行深度识别未见视觉关系

提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型，通过共同的文本图像表示方法实现文本补充图像数据，结果表明图像中没有的文本信息可以显著提高模型性能

Oct, 2019

场景图 ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于 Transformer 的图像编码器模型，用于开放词汇视觉关系检测，并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。

Mar, 2024