Uni-Perceiver: 通用感知的预训练统一架构，用于零样本和小样本任务

Dec, 2021

Uni-Perceiver: 通用感知的预训练统一架构，用于零样本和小样本任务

Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Xiaogang Wang...

TL;DR使用 Uni-Perceiver 的通用感知架构进行多个任务和多个模态的统一建模和共享参数，在预训练和微调的阶段都表现出了可接受的结果和表现。

Abstract

Biological intelligence systems of animals perceive the world by integrating information in different modalities and processing simultaneously for various tasks. In contrast, current →

perception architecture machine learning modalities tasks pre-trained model

发现论文，激发创造

带迭代注意力的通用感知器

本文介绍了 Perceiver 模型，它利用了不对关系进行假设的 Transformer，同时还能在处理非常大的输入时进行规模扩展，通过迭代地将输入压缩到一个紧凑的潜在瓶颈中，并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。

Mar, 2021

UniAP: 透过少样本学习实现通用动物视觉感知

UniAP 是一种新型的通用动物感知模型，它利用少样本学习实现不同视觉任务中不同动物之间的跨物种感知。通过利用不同动物和任务之间的共享视觉特征，UniAP 能够将知识从研究充分的物种传递到有限标记数据甚至从未见过的物种中，展示其在姿势估计、分割和分类任务方面的广泛适应性和泛化能力。

Aug, 2023

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

UniTR: 统一高效的多模态 Transformer 用于鸟瞰表示

UniTR 是一种高效的多模态骨干网络，用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它引入了一种模态不可知的转换编码器来处理不同的传感器数据，并通过视角不一致的传感器数据进行并行模态表示学习和自动跨模态交互，无需额外的融合步骤。它通过同时考虑语义丰富的 2D 透视图和几何感知的 3D 稀疏邻域关系，提出了一种新颖的多模态融合策略。在 nuScenes 评测上，UniTR 在 3D 目标检测方面取得了 + 1.1 NDS 的提高，在 BEV 地图分割方面取得了 + 12.0 mIoU 的提高，并具有较低的推理延迟。

Aug, 2023

Perceiver IO: 一种针对结构化输入输出的通用体系结构

本文提出 Perceiver IO 机器学习模型，它具有灵活的查询机制，能够处理来自任意领域的数据并对多种任务进行推理，其性能表现优于传统的 Transformer-based BERT 基准测试，并在 Sintel 光流估计方面取得了最先进的性能。

Jul, 2021

通过可散点学习统一视觉感知

UniHead 使用 transformer encoder 实现视觉感知任务的统一处理，提供了一个简单、灵活、通用的视觉感知头，支持对象检测、实例分割和姿态估计等视觉任务，并在 ImageNet 和 COCO 数据集上进行了广泛的评估。

Aug, 2022

通用多模态 Transformer 满足遥感语义分割

在遥感语义分割领域中，本研究调查了 PerceiverIO 等普适性多模态网络在处理遥感图像中的物体尺度变化和车辆检测方面的表现，并提出一种空间和体积学习组件来解决这些问题。通过广泛的实验证明，该方法在与 UNetFormer 和 SwinUNet 等专用架构相比具有竞争力的结果，显示出最小化网络架构工程且性能不受明显影响的潜力。

Jul, 2023

通用实例感知作为物体发现和检索

本文提出了一个称之为 UNINEXT 的通用实例感知模型，它将各种实例感知任务重新制定为统一的对象发现和检索范式，并且可以灵活地通过更改输入提示来感知不同类型的对象。这个统一的公式带来了以下好处：(1) 可以利用来自不同任务和标签词汇的大量数据进行联合训练，这对于缺乏训练数据的任务尤其有益。(2) 这个统一的模型是参数高效的，能够在处理多个任务时节省冗余计算。在 20 个具有挑战性的基准测试中，包括经典的图像级任务 (对象检测和实例分割)、视觉语言任务 (指称理解和分割) 和六个视频级对象跟踪任务，UNINEXT 表现出优异的性能。

Mar, 2023

元转换器：多模态学习的统一框架

通过使用冻结的编码器以及共享的令牌空间，Meta-Transformer 提出了一个框架，可以在 12 种不同的模态间进行统一学习，并处理多种任务，展现了转换器在发展统一多模态智能方面的潜力。

Jul, 2023

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020