基于 Transformer 双关系图的多标签图像识别

ICCVOct, 2021

基于 Transformer 双关系图的多标签图像识别

Transformer-based Dual Relation Graph for Multi-label Image Recognition

Jiawei Zhao, Ke Yan, Yifan Zhao, Xiaowei Guo, Feiyue Huang...

TL;DR本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Abstract

The simultaneous recognition of multiple objects in one image remains a challenging task, spanning multiple events in the recognition field such as various object scales, inconsistent appearances, and confused inter-class relationships. Recent research efforts mainly resort to the statistic label co-occurrences and linguistic word embedding to enhance the un

object recognition transformer-based dual relation learning semantic-aware constraints structural relationship multi-label recognition

发现论文，激发创造

使用 Transformer 和课程学习的双重图卷积网络用于图像字幕生成

本文提出了针对图像标题生成问题的 Dual Graph Convolutional Networks (Dual-GCN) 模型，使用 Transformer 和 Curriculum Learning 技术，在单张图片内有效捕获物体间的关系和多张图像之间的特征信息以生成更为准确的标题，实验结果表明该模型在 MS COCO 数据集上表现突出，达到了 BLEU-1 得分 82.2 和 BLEU-2 得分 67.6。

Aug, 2021

关系变换网络

该论文提出了一种新颖的 transformer 模型，用于场景图生成和关系预测，利用编码器 - 解码器架构和节点和边的丰富特征嵌入，通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互，并引入适用于处理解码器中的边的新的位置嵌入。

Apr, 2020

使用图形注意力学习图像文本匹配的双重语义关系

本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法，该方法主要由两个模块组成，分别进行不同层次的语义关系学习，从而提高图像文本匹配的准确性，并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。

Oct, 2020

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

多任务三元流网络实现密集关系图像字幕生成

本篇研究提出了一种新的图像描述任务：密集关系字幕，该任务旨在生成多个字幕，涉及视觉场景中对象之间的关系信息。通过使用多任务三重流网络（MTTSNet）训练识别 POS（主客观谓宾分类）并生成字幕，同时使用明确的关系模块来改进它的表现。该模型在大型数据集和多个指标上经过了广泛的实验分析，能够生成更多样化、更丰富的字幕，并将其应用于整体图像字幕，场景图生成和检索任务。

Oct, 2020

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

面向文本到视频检索的语义角色感知相关性变换器

该论文提出了一种新型的 Transformer 模型，将文本和视频显式分离，通过注意力机制了解三种角色的内部和内部角色之间的相关性，以在不同级别上寻找识别特征，初步结果表明，在所有的指标中，我们的方法都超过了当前最先进的方法，在两个指标上也超过了两种最先进的方法。

Jun, 2022

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于 Transformer 的方法，称为 DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在 mR@50 和 mR@100 方面分别取得了 3.5％和 6.7％的显著改进，在全景场景图生成任务上甚至取得了 8.5％和 10.3％的更大改进。

Mar, 2024

学习语义特定图表示用于多标签图像识别

提出了一种 Semantic-Specific Graph Representation Learning (SSGRL) 的框架，包含两个重要模块：语义解耦模块和语义交互模块，其中语义解耦模块结合类别语义以指导学习语义特定表示，语义交互模块则将这些表示与基于统计标签共现构建的图相互关联，可以通过图传播机制来探索它们的相互作用，通过大量的公共基准测试，证明 SSGRL 框架优于现有的最新方法。

Aug, 2019

场景图 ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于 Transformer 的图像编码器模型，用于开放词汇视觉关系检测，并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。

Mar, 2024