UniHead:统一多感知检测算法
UniHead 使用 transformer encoder 实现视觉感知任务的统一处理,提供了一个简单、灵活、通用的视觉感知头,支持对象检测、实例分割和姿态估计等视觉任务,并在 ImageNet 和 COCO 数据集上进行了广泛的评估。
Aug, 2022
本文提出了一种新型的动态头框架,通过将特征级别之间的多个自注意力机制、空间位置之间的多个自注意力机制以及任务感知中的输出信道之间的多个自注意力机制相互结合,实现了在物体检测中头部统一化的目标,大幅改善了物体检测头部的表示能力,并且在 COCO 基准测试中取得了新的最优性能。
Jun, 2021
使用 Uni-Perceiver 的通用感知架构进行多个任务和多个模态的统一建模和共享参数,在预训练和微调的阶段都表现出了可接受的结果和表现。
Dec, 2021
该研究提出了一种统一而全面的人类中心感知 (HCP) 框架 (HQNet),通过学习一个统一的人类查询表示 (Human Query) 来解决单阶段多人多任务的人类中心感知问题。实验结果表明该方法在多任务人类中心感知模型中表现出色,并与任务特定的人类中心感知模型的性能相媲美,同时还展示了人类查询在新的 HCP 任务上的适应性和鲁棒的泛化能力。
Dec, 2023
该论文研究了如何训练一个来自多个数据集的统一 3D 检测器,提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异,证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。
Mar, 2023
我们提出的 UniNet 框架可以将 DETR3D、Mask2Former 和 BinsFormer 无缝地结合到一个多任务模型中,实现多任务鲁棒性,并在 1st Visual Continual Learning(VCL)挑战的多任务鲁棒性领域取得了显著性能。
Feb, 2024
UniVision 是一个简单高效的框架,统一了视觉导向的自动驾驶中的三维感知任务,包括占有率预测和物体检测,并在各项公开基准测试中取得了领先的结果。
Jan, 2024
本文提出了 UniHCP,一个使用简化的端到端模式和平面视觉转换器架构,将广泛的以人为中心的任务统一起来的集成模型,通过在 33 个数据集上进行大规模联合训练,在多个领域和下游任务上直接评估优于强基线结果,在适应特定任务时,UniHCP 在多种以人为中心的任务上取得新的最佳性能。
Mar, 2023
UniDAformer 是一种简单的统一领域自适应全景分割变压器,采用分层掩模校准来纠正特定区域的不准确预测,可以同时实现领域自适应实例分割和语义分割。它可用于统一领域自适应全景适应,并通过在线自训练来缓解错误预测,有效地提高了领域自适应全景分割的效果,训练及推理流程简单,经过多项公共基准测试,UniDAformer 的领域自适应全景分割优于现有技术水平。
Jun, 2022