UniHead：统一多感知检测算法

Sep, 2023

UniHead: Unifying Multi-Perception for Detection Heads

Hantao Zhou, Rui Yang, Yachao Zhang, Haoran Duan, Yawen Huang...

TL;DR我们提出了一种名为 UniHead 的创新检测头，同时统一了三种感知能力：变形感知、全局感知和跨任务交互，使得我们的方法在 COCO 数据集上显著改进了多个检测器的性能。

Abstract

The detection head constitutes a pivotal component within object detectors, tasked with executing both classification and localization functions. Regrettably, the commonly used parallel head often lacks omni perceptual capabilities, such as →

detection head perceptual abilities deformation perception global perception cross-task interaction

发现论文，激发创造

通过可散点学习统一视觉感知

UniHead 使用 transformer encoder 实现视觉感知任务的统一处理，提供了一个简单、灵活、通用的视觉感知头，支持对象检测、实例分割和姿态估计等视觉任务，并在 ImageNet 和 COCO 数据集上进行了广泛的评估。

Aug, 2022

Dynamic Head: 统一物体检测注意力头

本文提出了一种新型的动态头框架，通过将特征级别之间的多个自注意力机制、空间位置之间的多个自注意力机制以及任务感知中的输出信道之间的多个自注意力机制相互结合，实现了在物体检测中头部统一化的目标，大幅改善了物体检测头部的表示能力，并且在 COCO 基准测试中取得了新的最优性能。

Jun, 2021

基于域注意力的通用物体检测

本研究提出了一种基于通用表示法的物体检测系统，通过引入适应层和域注意力机制，实现了跨域检测，且在 11 个数据集上表现优于其他检测器。

Apr, 2019

Uni-Perceiver: 通用感知的预训练统一架构，用于零样本和小样本任务

使用 Uni-Perceiver 的通用感知架构进行多个任务和多个模态的统一建模和共享参数，在预训练和微调的阶段都表现出了可接受的结果和表现。

Dec, 2021

只学一次查询：单阶段多人多任务人类中心感知的统一人类查询学习

该研究提出了一种统一而全面的人类中心感知 (HCP) 框架 (HQNet)，通过学习一个统一的人类查询表示 (Human Query) 来解决单阶段多人多任务的人类中心感知问题。实验结果表明该方法在多任务人类中心感知模型中表现出色，并与任务特定的人类中心感知模型的性能相媲美，同时还展示了人类查询在新的 HCP 任务上的适应性和鲁棒的泛化能力。

Dec, 2023

Uni3D: 多数据集三维物体检测的统一基线

该论文研究了如何训练一个来自多个数据集的统一 3D 检测器，提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异，证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。

Mar, 2023

一个用于密集视觉预测解决方案的香草式多任务框架 —— 第一届 VCL 挑战赛 —— 多任务鲁棒性分科

我们提出的 UniNet 框架可以将 DETR3D、Mask2Former 和 BinsFormer 无缝地结合到一个多任务模型中，实现多任务鲁棒性，并在 1st Visual Continual Learning（VCL）挑战的多任务鲁棒性领域取得了显著性能。

Feb, 2024

UniVision：一个统一的面向视觉中心的 3D 感知框架

UniVision 是一个简单高效的框架，统一了视觉导向的自动驾驶中的三维感知任务，包括占有率预测和物体检测，并在各项公开基准测试中取得了领先的结果。

Jan, 2024

UniHCP: 人类中心感知的统一模型

本文提出了 UniHCP，一个使用简化的端到端模式和平面视觉转换器架构，将广泛的以人为中心的任务统一起来的集成模型，通过在 33 个数据集上进行大规模联合训练，在多个领域和下游任务上直接评估优于强基线结果，在适应特定任务时，UniHCP 在多种以人为中心的任务上取得新的最佳性能。

Mar, 2023

UniDAformer: 基于层次化掩模校准的统一域自适应全景分割 Transformer

UniDAformer 是一种简单的统一领域自适应全景分割变压器，采用分层掩模校准来纠正特定区域的不准确预测，可以同时实现领域自适应实例分割和语义分割。它可用于统一领域自适应全景适应，并通过在线自训练来缓解错误预测，有效地提高了领域自适应全景分割的效果，训练及推理流程简单，经过多项公共基准测试，UniDAformer 的领域自适应全景分割优于现有技术水平。

Jun, 2022