使用大词汇表探索长尾视觉关系识别

Mar, 2020

使用大词汇表探索长尾视觉关系识别

Exploring Long Tail Visual Relationship Recognition with Large Vocabulary

Sherif Abdelkarim, Aniket Agarwal, Panos Achlioptas, Jun Chen, Jiaji Huang...

TL;DR本文是对 Long-Tail Visual Relationship Recognition（LTVRR）任务的第一次大规模研究。通过引入 VG8K-LT 和 GQA-LT 等基于 Visual Genome 和 GQA 数据集的相关基准，研究了几种使用最先进的长尾模型在 LTVRR 设置中的性能。最后，介绍了一种 VilHub 损失和一种 RelMix 增强技术，能够显著提高性能，尤其是尾部类别。

Abstract

Several approaches have been proposed in recent literature to alleviate the long-tail problem, mainly in object classification tasks. In this paper, we make the first large-scale study concerning the task of Long-Tail Visual Relationship Recognition (ltvrr). →

long-tail visual relationship recognition ltvrr benchmarks vilhub relmix

发现论文，激发创造

VL-LTR: 学习类别感知的视觉语言表示在长尾视觉识别中的应用

本研究提出一种基于深度学习的视觉 - 语言长尾识别框架 (VL-LTR)，并在图像文本双模态下解决了长尾数据识别问题，实验结果在 ImageNet-LT 数据集上表现优异，取得了 77.2% 的整体准确率，比之前最佳表现高出了 17 个百分点。

Nov, 2021

DiffAugment：基于扩散模型的长尾视觉关系识别

Visual Relationship Recognition (VRR) using DiffAugment and Diffusion Models to address the imbalanced distribution of triplets, introducing a hardness-aware component and a subject/object-based seeding strategy, improving per-class accuracy on the GQA-LT dataset.

Jan, 2024

运用头脑：提升长尾视频识别

本文对长尾视频识别进行了研究，提出了新的视频基准数据集和一种名为 Long-Tail Mixed Reconstruction 的方法，可显著减少过拟合并取得了最新的平均分类精度。

Apr, 2023

一种基于视觉 - 语言模型的简单长尾识别基准线

BALLAD 利用对比学习方法，结合视觉感知与语言理解，实现对于长尾数据集的视觉识别，并在大量实验中获得比竞争性基线更优异的表现。

Nov, 2021

VrR-VG: 聚焦视觉相关关系

通过构建一个名为 VrR-VG 的新场景图数据集，我们提出了一种通过修剪视觉不相关的关系来自动挖掘更有价值关系的新方法，并通过考虑实例、属性和关系来学习关系感知表征，从而系统性地提高了图像字幕和视觉问题回答的性能。

Feb, 2019

大规模视觉关系理解

该研究提出一种新的关系检测模型，将物体和关系嵌入到两个矢量空间中，同时保留了区分能力和语义关联性，并在基于 Visual Genome 的大规模和不平衡基准上展示了该模型的有效性。

Apr, 2018

基于关注聚合的少数民族定向邻域扩展视频长尾识别

本文探讨了 Video Long-Tailed Recognition 中难以应对的（1）任务不相关特征和（2）视频级标签的问题，并提出两种相互补充的可学习特征聚合器和基于类频率的近似扩展方法，使得算法达到了当今的最优效果。

Nov, 2022

视觉关系学习：魔鬼在细节之中

在研究中，我们提出了 Decoupled Training for Devil in the Tails（DT2）的假设并开发了一个名为 Alternating Class-Balanced Sampling（ACBS）的新方法，以应对视觉关系模型的长尾分布问题。我们的结果表明，相比于更复杂的方法，DT2-ACBS 极大地提升了场景图生成任务的简单架构的性能。这提示在解决这个问题时需要同时考虑复杂模型的发展和长尾问题。

Aug, 2021

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024

评估和分析 LVLM 中的关系幻觉

通过引入 R-Bench 评估 Vision Relationship Hallucination，在大型视觉语言模型中探讨幻觉问题，尤其关注对象关系中的幻觉，包括关系 - 关系、主体 - 关系和关系 - 对象三种关系共现形成的幻觉，以及视觉内容和基于上下文的空间关系推理的困难。

Jun, 2024