ActFormer:通过主动查询实现可扩展的协作感知
本文提出了新的 BEVFormer 框架,该框架学习使用时空变形器的统一 BEV 表示,以支持多个自主驾驶感知任务。在 nuScenes 测试集中,该方法达到了 56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
使用 Perceiver Transformer 的行为克隆代理能够有效地学习行动,实验表明其在桌面任务上优于不受结构限制的图像转行动代理和 3D ConvNet 基准。
Sep, 2022
多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征,获取鸟瞰图特征,并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能,同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征,实现更稳定可靠的检测结果,通过对 nuScenes 数据集的评估,其在 3D 目标检测任务中获得了 72.6%的 mAP 和 75.1%的 NDS,优于现有的最先进方法。
Sep, 2023
基于 3D 占据率、多视图特征聚合和动态场景的研究,我们提出了 ViewFormer,一个基于 Transformer 的视觉中心框架,具有高度的可扩展性和优越性能。
May, 2024
提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。
Apr, 2024
通过提出的 WidthFormer 模型,本研究将 Bird's-Eye-View(BEV)3D 检测方法应用于实时自动驾驶应用,其具有计算效率高、有效、无需特殊工程部署等特点,并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息,从而实现生成高质量 BEV 表示的目标。
Jan, 2024
本文提出了一种用于自动驾驶的联邦变压器学习方法 FedBEVT,其使用多视角相机数据来学习模型,并解决了数据异构问题,如多传感器姿态和感知系统中不同的传感器数量。在实际场景中的性能优于基线方案,展示了该方法在提高鸟瞰图感知中的潜力。
Apr, 2023
本研究提出了一个名为 AutoTaskFormer 的自动多任务视觉 Transformer 神经架构搜索框架,该框架能够自动识别在多个任务之间共享的权重,并在各种资源约束下提供成千上万的经过良好训练的视觉 Transformer。实验结果表明,AutoTaskFormer 在多任务学习方面优于现有的手工制作的视觉 Transformer。
Apr, 2023
ActionFormer 是一种基于 Transformer 网络的模型,采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0% mAP,在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。
Feb, 2022