ActFormer：通过主动查询实现可扩展的协作感知

Mar, 2024

ActFormer：通过主动查询实现可扩展的协作感知

ActFormer: Scalable Collaborative Perception via Active Queries

Suozhi Huang, Juexiao Zhang, Yiming Li, Chen Feng

TL;DR本研究提出了一种基于 Transformer 的体系结构，旨在处理依靠摄像机协同感知的扩展性问题。该体系结构通过智能地辨别协作者及其相关摄像机的关联性，以学习的空间先验来主动理解视觉特征的相关性，从而提高通信和计算效率，实现多智能体协同三维物体检测的性能改进。

Abstract

collaborative perception leverages rich visual observations from multiple robots to extend a single robot's perception ability beyond its field of view. Many prior works receive messages broadcast from all collaborators, leading to a →

collaborative perception camera-based perception transformer-based architecture scalability multi-robot multi-camera inputs

发现论文，激发创造

BEVFormer: 基于时空 Transformer 通过多相机图像学习鸟瞰视角表示

本文提出了新的 BEVFormer 框架，该框架学习使用时空变形器的统一 BEV 表示，以支持多个自主驾驶感知任务。在 nuScenes 测试集中，该方法达到了 56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Mar, 2022

Perceiver-Actor: 用于机器人操纵的多任务 Transformer

使用 Perceiver Transformer 的行为克隆代理能够有效地学习行动，实验表明其在桌面任务上优于不受结构限制的图像转行动代理和 3D ConvNet 基准。

Sep, 2022

FusionFormer：鸟瞰视图和时间一致 Transformer 的多感知融合用于 3D 目标

多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征，获取鸟瞰图特征，并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能，同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征，实现更稳定可靠的检测结果，通过对 nuScenes 数据集的评估，其在 3D 目标检测任务中获得了 72.6％的 mAP 和 75.1％的 NDS，优于现有的最先进方法。

Sep, 2023

ViewFormer：基于视图引导的 Transformer 模型探索多视角 3D 占位感知的时空建模

基于 3D 占据率、多视图特征聚合和动态场景的研究，我们提出了 ViewFormer，一个基于 Transformer 的视觉中心框架，具有高度的可扩展性和优越性能。

May, 2024

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

BEVSegFormer: 任意相机架构的鸟瞰视角语义分割

本文介绍了 BEVSegFormer，一种有效的基于转换器的方法，用于从任意摄像机装置进行 BEV 语义分割。

Mar, 2022

WidthFormer: 高效基于 Transformer 的 BEV 视角转换

通过提出的 WidthFormer 模型，本研究将 Bird's-Eye-View（BEV）3D 检测方法应用于实时自动驾驶应用，其具有计算效率高、有效、无需特殊工程部署等特点，并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息，从而实现生成高质量 BEV 表示的目标。

Jan, 2024

FedBEVT: 道路交通系统中的联邦学习鸟瞰感知变换器

本文提出了一种用于自动驾驶的联邦变压器学习方法 FedBEVT，其使用多视角相机数据来学习模型，并解决了数据异构问题，如多传感器姿态和感知系统中不同的传感器数量。在实际场景中的性能优于基线方案，展示了该方法在提高鸟瞰图感知中的潜力。

Apr, 2023

AutoTaskFormer: 搜索视觉 Transformer 进行多任务学习

本研究提出了一个名为 AutoTaskFormer 的自动多任务视觉 Transformer 神经架构搜索框架，该框架能够自动识别在多个任务之间共享的权重，并在各种资源约束下提供成千上万的经过良好训练的视觉 Transformer。实验结果表明，AutoTaskFormer 在多任务学习方面优于现有的手工制作的视觉 Transformer。

Apr, 2023

ActionFormer：使用 Transformers 定位行为片段

ActionFormer 是一种基于 Transformer 网络的模型，采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0％ mAP，在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。

Feb, 2022