通过捕获物体间的关系提升航空图像中的检测能力

Apr, 2024

通过捕获物体间的关系提升航空图像中的检测能力

Improving Detection in Aerial Images by Capturing Inter-Object Relationships

Botao Ren, Botian Xu, Yifan Pu, Jingyi Wang, Zhidong Deng

TL;DR基于 transformer 的方法在三个基准测试中表现出一致的性能提升，特别是在 DOTA-v1.5 和 HRSC 2016 上名列前茅，相对于基线方法分别增加了 1.59 mAP 在 DOTA-v1.0、4.88 mAP 在 DOTA-v1.5 和 2.1 mAP 在 HRSC 2016。

Abstract

In many image domains, the spatial distribution of objects in a scene exhibits meaningful patterns governed by their semantic relationships. In most modern detection pipelines, however, the detection proposals are processed independently, overlooking the underlying relationships between objects. In this work, we introduce a →

object relationships transformer-based approach classification regression outcomes performance improvement

发现论文，激发创造

学习 RoI Transformer 在航拍图像中检测有方向物体

本文提出了一个 RoI Transformer 模型用于解决在航拍图像中检测旋转目标时，水平建议区域（HRoI）和旋转建议区域（RRoI）之间可能会引入不匹配的问题。该模型具有轻复杂度和高性能，提出的模型在两种常见而具有挑战性的遥感数据集 DOTA 和 HRSC2016 上表现出了最先进的性能。

Dec, 2018

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

语义和空间精细化 Transformer 用于检测人物 - 物体交互

我们提出了一种基于 Transformer 的语义和空间精炼 Transformer（SSRT），用于解决需要定位人和物体并预测它们之间交互的人 - 物交互检测任务，并在 V-COCO 和 HICO-DET 等两个最受欢迎的 HOI 基准测试中取得了最新的结果。

Apr, 2022

Transformer 能否捕获物体之间的空间关系？

当前计算机视觉系统在识别实物基础空间关系方面的性能较差，通过提出了精确的关系定义以允许对基准数据集进行一致的标注，并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构，并证明其胜过所有当前方法，这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。

Mar, 2024

基于 Transformer 双关系图的多标签图像识别

本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Oct, 2021

面向非约束遥感图像的多类目标检测

本文提出了一种新方法，即一个新的联合图像级联和特征金字塔网络，用于在遥感图像中提取多尺度的强和弱语义特征，并进行定向边界框的检测和旋转非极大值抑制，提高了模型的性能。同时，该模型还具有对图像和对象尺度和方向的鲁棒性，可在多类物体检测应用程序中部署。

Jul, 2018

几何特征增强的人物 - 物体交互检测

我们提出了一种新颖的端到端 Transformer-style HOI 检测模型，即几何特征增强的 HOI 检测器 (GeoHOI)，通过度量关键点的相似性以及局部关键点图像补充互动查询表示，以提升 HOI 预测的性能。 extensive experiments 表明，该方法在 V-COCO 上优于最先进的模型，并在 HICO-DET 上实现了竞争性能，案例研究结果表明了该方法在基于视觉仪器的灾后救援中的适用性。

Jun, 2024

关系变换网络

该论文提出了一种新颖的 transformer 模型，用于场景图生成和关系预测，利用编码器 - 解码器架构和节点和边的丰富特征嵌入，通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互，并引入适用于处理解码器中的边的新的位置嵌入。

Apr, 2020

HOI Transformer 实现端到端人体对象交互检测

HOI Transformer 是一种用于解决人与物体交互检测任务的算法，它可以通过全局图像上下文来推断物体与人的关系并在并行统一的方式下直接预测 HOI 实例，并引入了五元匹配损失来统一强制 HOI 预测，并能够在 HICO-DET 和 V-COCO 上取得比以前更好的性能表现。

Mar, 2021

语义感知的不变转换 RoI Align

在这篇论文中，我们提出了一种新颖的 RoI 特征提取器 Semantic RoI Align（SRA），它能够在各种变换下提取不变的 RoI 特征，用于两阶段检测器。我们通过引入语义注意力模块，利用 RoI 内的全局和局部语义关系自适应地确定不同采样区域。我们还提出了动态特征采样器 Dynamic Feature Sampler，根据 RoI 的宽高比动态采样特征，以提高 SRA 的效率。另外，我们引入了一种新的位置嵌入 Area Embedding，通过改进采样区域表示提供更准确的位置信息给 SRA。实验证明，我们的模型在比基准模型轻微计算开销的情况下显著优于其他模型，并具有出色的泛化能力，可以改善各种最先进的主干网络和检测方法的性能。

Dec, 2023