SOLQ: 通过学习查询分割对象

Jun, 2021

SOLQ: Segmenting Objects by Learning Queries

Bin Dong, Fangao Zeng, Tiancai Wang, Xiangyu Zhang, Yichen Wei

TL;DR本文介绍了一种基于统一查询的端到端实例分割框架 SOLQ，其通过联合学习指定每个对象的查询，并在一个向量形式中同时执行分类、框回归和掩模编码，可直接转换为空间掩模，以达到最先进的性能。

Abstract

In this paper, we propose an end-to-end framework for instance segmentation. Based on the recently introduced DETR [1], our method, termed SOLQ, segments objects by learning →

end-to-end framework instance segmentation unified queries mask encoding detection performance

发现论文，激发创造

DQ-Det：基于 Transformer 的物体检测与分割的学习动态查询组合

使用基于 Transformer 的检测和分割方法，学习检测查询列表以从变压器网络中检索信息，并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式，生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询，一系列基于 DETR 的模型在多个任务中实现了一致且优秀的性能，包括物体检测，实例分割，全景分割和视频实例分割。

Jul, 2023

一种统一的基于查询的伪装实例分割范式

基于查询的多任务学习框架在伪装实例分割中表现出色，通过构建一组掩蔽查询和一组边界查询，有效地整合全局掩蔽对象区域和边界提示，实现了伪装场景中的实例分割和边界检测。

Aug, 2023

解耦的 DETR：空间分离定位和分类以改善端到端对象检测

通过空间解耦 DETR（SD-DETR）设计方案和任务感知查询生成模块，以及通过引入对齐损失的新颖设计，我们在 MSCOCO 数据集上展示了在目标检测任务中 DETR 性能的显著提升，例如我们将 Conditional DETR 的性能提高了 4.5 AP。

Oct, 2023

挑战在查询中：推进 Mask Transformer 在实际医学影像分割和分布外定位中的应用

本文提出了一种基于 Mask Transformers 的 medical image segmentation 方法，利用对象查询将语义分割表述为软集群分配，从而实现对 ODD 区域的定位。与其他 state-of-the-art 算法相比，在胰腺和肝脏肿瘤的真实世界分割任务中，该框架平均提高了 7.39％的 AUROC，14.69％的 AUPR 和 13.79％的 FPR95 用于 OOD 定位，并且平均提高了 5.27％的 DSC 用于 inlier segmentation。

Apr, 2023

稀疏半 DETR: 稀疏可学习的查询用于半监督物体检测

Sparse Semi-DETR 是一种基于 Transformer 的端到端半监督目标检测解决方案，通过引入查询精化模块和可靠伪标签过滤模块来解决 DETR-based SSOD 框架中对象查询质量不准确和重叠预测的问题，大大提高了对小型和部分遮挡对象的检测能力，并在 MS-COCO 和 Pascal VOC 目标检测基准测试中实现了显著改进。

Apr, 2024

自然语言引导的动态多模态实例分割

本研究旨在处理通过自然语言描述的对象分割问题，并提出了一种新的方法，将递归神经网络和卷积神经网络相结合以完全利用语言的递归本质。通过四个标准数据集的比较，我们的方法在八个任务中的六个任务中表现超越之前的方法。

Jul, 2018

探索 Transformer 在开放世界实例分割中的应用

本论文提出了一种基于 Transformer 的开放世界实例分割模型 SWORD，利用停止梯度操作和 IoU 头进行对象分割，通过对比学习扩大对象和背景之间的表示，并在各种开放世界场景中实现了最先进的性能。

Aug, 2023

通过改进内容查询和相似查询聚合提升 DETR 变体性能

本文介绍了一种自适应内容查询模块（SACQ），它利用变换器编码器的特征通过自注意力池化生成内容查询，解决了传统零初始化或可学习嵌入的内容查询缺乏信息导致性能不佳的问题。为了应对增强的集中力对匈牙利匹配训练过程的挑战，我们提出了查询聚合策略，合并来自不同查询的类似预测候选项，从而简化优化过程。在 COCO 数据集上的广泛实验证明了我们所提方法的有效性，在多种配置下对六种 DETR 变体均取得了超过 1.0 AP 的平均改进。

May, 2024

使用语言对任意 3D 物体进行分割

本文介绍了一种基于语言指令的语义和几何感知的视觉语言学习框架，通过直接从 3D 点云生成语义相关的掩码，从而在 ScanNetv2、ScanNet200 和 Replica 基准测试中明显优于现有方法，且结果接近全监督对照组，尽管训练数据中缺乏类别标注。

Apr, 2024

实例作为查询

提出一种 QueryInst 方法，以查询为基础进行实例分割，其实现是通过在动态掩模头上进行并行监督。经过各种实验后，QueryInst 在实例分割和视频实例分割（VIS）任务上达到了最佳表现，在所有在线 VIS 方法中取得了最佳性能并达到适当的速度 - 准确度平衡。

May, 2021