Uni-Perceiver: 通用感知的预训练统一架构,用于零样本和小样本任务
本文介绍了 Perceiver 模型,它利用了不对关系进行假设的 Transformer,同时还能在处理非常大的输入时进行规模扩展,通过迭代地将输入压缩到一个紧凑的潜在瓶颈中,并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。
Mar, 2021
UniAP 是一种新型的通用动物感知模型,它利用少样本学习实现不同视觉任务中不同动物之间的跨物种感知。通过利用不同动物和任务之间的共享视觉特征,UniAP 能够将知识从研究充分的物种传递到有限标记数据甚至从未见过的物种中,展示其在姿势估计、分割和分类任务方面的广泛适应性和泛化能力。
Aug, 2023
我们提出了一种名为 UniT 的统一 Transformer 模型,该模型可以同时学习不同领域中最重要的任务,从目标检测到自然语言理解和多模态推理,在编码器 - 解码器架构的基础上,通过编码器对每个输入模态进行编码,并使用共享解码器对编码的输入表示进行每个任务的预测,然后是特定于任务的输出头。我们的实验证明,在 8 个数据集上联合学习 7 个任务,使用比以前的工作更少的参数,在每个任务上都获得了强大的性能。
Feb, 2021
UniTR 是一种高效的多模态骨干网络,用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它引入了一种模态不可知的转换编码器来处理不同的传感器数据,并通过视角不一致的传感器数据进行并行模态表示学习和自动跨模态交互,无需额外的融合步骤。它通过同时考虑语义丰富的 2D 透视图和几何感知的 3D 稀疏邻域关系,提出了一种新颖的多模态融合策略。在 nuScenes 评测上,UniTR 在 3D 目标检测方面取得了 + 1.1 NDS 的提高,在 BEV 地图分割方面取得了 + 12.0 mIoU 的提高,并具有较低的推理延迟。
Aug, 2023
本文提出 Perceiver IO 机器学习模型,它具有灵活的查询机制,能够处理来自任意领域的数据并对多种任务进行推理,其性能表现优于传统的 Transformer-based BERT 基准测试,并在 Sintel 光流估计方面取得了最先进的性能。
Jul, 2021
UniHead 使用 transformer encoder 实现视觉感知任务的统一处理,提供了一个简单、灵活、通用的视觉感知头,支持对象检测、实例分割和姿态估计等视觉任务,并在 ImageNet 和 COCO 数据集上进行了广泛的评估。
Aug, 2022
在遥感语义分割领域中,本研究调查了 PerceiverIO 等普适性多模态网络在处理遥感图像中的物体尺度变化和车辆检测方面的表现,并提出一种空间和体积学习组件来解决这些问题。通过广泛的实验证明,该方法在与 UNetFormer 和 SwinUNet 等专用架构相比具有竞争力的结果,显示出最小化网络架构工程且性能不受明显影响的潜力。
Jul, 2023
本文提出了一个称之为 UNINEXT 的通用实例感知模型,它将各种实例感知任务重新制定为统一的对象发现和检索范式,并且可以灵活地通过更改输入提示来感知不同类型的对象。这个统一的公式带来了以下好处:(1) 可以利用来自不同任务和标签词汇的大量数据进行联合训练,这对于缺乏训练数据的任务尤其有益。(2) 这个统一的模型是参数高效的,能够在处理多个任务时节省冗余计算。在 20 个具有挑战性的基准测试中,包括经典的图像级任务 (对象检测和实例分割)、视觉语言任务 (指称理解和分割) 和六个视频级对象跟踪任务,UNINEXT 表现出优异的性能。
Mar, 2023
通过使用冻结的编码器以及共享的令牌空间,Meta-Transformer 提出了一个框架,可以在 12 种不同的模态间进行统一学习,并处理多种任务,展现了转换器在发展统一多模态智能方面的潜力。
Jul, 2023
本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验,分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究,揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因,同时将两类网络统一在同一理论框架之下,指出 embedding layer 在这些模型中具有至关重要的作用。
Nov, 2020