通过可散点学习统一视觉感知

ECCVAug, 2022

Unifying Visual Perception by Dispersible Points Learning

Jianming Liang, Guanglu Song, Biao Leng, Yu Liu

TL;DRUniHead 使用 transformer encoder 实现视觉感知任务的统一处理，提供了一个简单、灵活、通用的视觉感知头，支持对象检测、实例分割和姿态估计等视觉任务，并在 ImageNet 和 COCO 数据集上进行了广泛的评估。

Abstract

We present a conceptually simple, flexible, and universal visual perception head for variant visual tasks, e.g., classification, object detection, instance segmentation and pose estimation, and different framewor

visual perception unihead transformer encoder object detection instance segmentation

发现论文，激发创造

UniHead：统一多感知检测算法

我们提出了一种名为 UniHead 的创新检测头，同时统一了三种感知能力：变形感知、全局感知和跨任务交互，使得我们的方法在 COCO 数据集上显著改进了多个检测器的性能。

Sep, 2023

Uni-Perceiver: 通用感知的预训练统一架构，用于零样本和小样本任务

使用 Uni-Perceiver 的通用感知架构进行多个任务和多个模态的统一建模和共享参数，在预训练和微调的阶段都表现出了可接受的结果和表现。

Dec, 2021

UniFS：基于点表示的通用少样本实例感知

通过将多个实例感知任务转化为动态点表示学习框架，UniFS 提出了一种通用的少样本实例感知模型，并提出 Structure-Aware Point Learning (SAPL) 以进一步增强表示学习。

Apr, 2024

UniHCP: 人类中心感知的统一模型

本文提出了 UniHCP，一个使用简化的端到端模式和平面视觉转换器架构，将广泛的以人为中心的任务统一起来的集成模型，通过在 33 个数据集上进行大规模联合训练，在多个领域和下游任务上直接评估优于强基线结果，在适应特定任务时，UniHCP 在多种以人为中心的任务上取得新的最佳性能。

Mar, 2023

统一感知分析用于场景理解

这篇论文研究了一项名为统一感知分析的新任务，通过开发 UPerNet 多任务框架和一种训练策略来实现从给定图像中识别尽可能多的视觉概念，最后在自然场景中应用训练网络来发现视觉知识。

Jul, 2018

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

一个用于密集视觉预测解决方案的香草式多任务框架 —— 第一届 VCL 挑战赛 —— 多任务鲁棒性分科

我们提出的 UniNet 框架可以将 DETR3D、Mask2Former 和 BinsFormer 无缝地结合到一个多任务模型中，实现多任务鲁棒性，并在 1st Visual Continual Learning（VCL）挑战的多任务鲁棒性领域取得了显著性能。

Feb, 2024

通用实例感知作为物体发现和检索

本文提出了一个称之为 UNINEXT 的通用实例感知模型，它将各种实例感知任务重新制定为统一的对象发现和检索范式，并且可以灵活地通过更改输入提示来感知不同类型的对象。这个统一的公式带来了以下好处：(1) 可以利用来自不同任务和标签词汇的大量数据进行联合训练，这对于缺乏训练数据的任务尤其有益。(2) 这个统一的模型是参数高效的，能够在处理多个任务时节省冗余计算。在 20 个具有挑战性的基准测试中，包括经典的图像级任务 (对象检测和实例分割)、视觉语言任务 (指称理解和分割) 和六个视频级对象跟踪任务，UNINEXT 表现出优异的性能。

Mar, 2023

Dynamic Head: 统一物体检测注意力头

本文提出了一种新型的动态头框架，通过将特征级别之间的多个自注意力机制、空间位置之间的多个自注意力机制以及任务感知中的输出信道之间的多个自注意力机制相互结合，实现了在物体检测中头部统一化的目标，大幅改善了物体检测头部的表示能力，并且在 COCO 基准测试中取得了新的最优性能。

Jun, 2021

UniVision：一个统一的面向视觉中心的 3D 感知框架

UniVision 是一个简单高效的框架，统一了视觉导向的自动驾驶中的三维感知任务，包括占有率预测和物体检测，并在各项公开基准测试中取得了领先的结果。

Jan, 2024