Laneformer: 面向车道检测的对象感知行列变换器

AAAIMar, 2022

Laneformer: 面向车道检测的对象感知行列变换器

Laneformer: Object-aware Row-Column Transformers for Lane Detection

Jianhua Han, Xiajun Deng, Xinyue Cai, Zhen Yang, Hang Xu...

TL;DRLaneformer 是一种基于 transformer 的架构，用于自动驾驶视觉感知中长期车道检测，通过自注意力机制实现车道形状和语义特征的有效捕获，实验表明能达到 CULane 基准的最佳表现。

Abstract

We present laneformer, a conceptually simple yet powerful transformer-based architecture tailored for lane detection that is a long-standing research topic for visual perception in →

laneformer transformer-based architecture autonomous driving lane detection self-attention models

发现论文，激发创造

具有多功能膨胀变换器和本地语义指导的车道检测

提出了一种名为 Atrous Transformer 的神经网络架构来进行车道检测，该网络采用局部 Atrous Former 增强特征提取器，然后通过行列顺序收集信息以提高信息提取能力，此外还提出了一种局部语义引导解码器来更准确地描绘车道的身份和形状，并使用三个基准测试数据集对其进行了评估，结果表明该网络表现优越。

Mar, 2022

CurveFormer++：基于曲线传播的 3D 车道检测，带有时间曲线查询和注意力机制

CurveFormer++ 是一种基于 Transformer 的单阶段方法，不需要图像特征视图转换模块，直接从透视图像特征中推断出三维车道检测结果。

Feb, 2024

PersFormer：基于透视变换和 OpenLane 基准的 3D 车道检测

PersFormer 是一种新型的端到端基于 Transformer 的单目 3D 车道检测器，该模型通过参考相机参数生成前视局部区域的鸟瞰图特征向量，并采用统一的 2D/3D 车道锚设计和辅助任务来同时检测 2D/3D 车道线，同时释放了针对车道检测以及其他工业相关的自动驾驶方法的大型真实世界 3D 车道数据集 OpenLane，该数据集包含 200,000 帧、880,000 个实例级车道、14 个车道类别以及场景标签和封闭路径对象注释，证明 PersFormer 在 3D 车道检测任务上明显优于竞争基线，并且在 OpenLane 的 2D 任务中与现有技术水平相当。

Mar, 2022

基于 Transformer 的端到端车道形状预测

本文提出了一种使用 transformer 网络进行车道检测的端到端方法，使用自我注意机制来捕捉细长结构和全局上下文，并在 TuSimple 基准测试中展示了最新的准确性，适应性和实际应用的强大部署潜力。

Nov, 2020

Pointformer 进行的 3D 物体检测

本文提出了一种 3D 点云特征学习模型 Pointformer，其中使用局部和全局 Transformer 模块对点云数据进行建模，结合了多尺度特征，以及使用坐标调整模块改善物体提议生成，成功地应用于室内和室外场景下目标检测任务，并取得了显著的性能提升。

Dec, 2020

稀疏 Laneformer

基于稀疏锚点机制的基于 Transformer 的车道检测框架 Sparse Laneformer，在 CULane 上使用相同的 ResNet-34 主干网络，在更少的 MACs 条件下，优于 Laneformer 和 O2SFormer 0.7% 的 F1 得分和 3.0% 的 F1 得分。

Apr, 2024

Wayformer：基于简单高效注意力网络的运动预测

本文提出了一种基于注意力机制的动作预测体系结构，并探讨了不同融合方法的有效性。结果表明，相比于其他模态融合方法，早期融合的模态无关架构在 Waymo Open MotionDataset (WOMD) 和 Argoverse 排行榜中都有着最优秀的表现。

Jul, 2022

CenterFormer：基于中心点的 Transformer 用于 3D 物体检测

本文提出了一种基于中心点的变换网络 ——CenterFormer，它使用查询嵌入来聚合中心候选点的特征向量，并设计了一种通过交叉注意力来融合多帧特征的方法。在 Waymo Open 数据集上，CenterFormer 在单个模型上实现了先进水平，取得了 73.7% 的验证集和 75.6% 的测试集 mAPH, 显著优于以前所有已发表的基于 CNN 和 transformer 的方法。

Sep, 2022

聚类器：作为通用视觉学习器的聚类方法

CLUSTERFORMER 是一种基于 CLUSTERING 范例和 TransFORMER 的通用视觉模型，通过递归更新聚类中心和基于相似度的指标来实现图像分类、目标检测和图像分割等多样化视觉任务的性能提升，并说明其在各项指标上优于其他专门化架构，为计算机视觉中的通用模型带来了范式转变。

Sep, 2023

LaneSegNet 设计研究

为了提高计算机视觉算法在实时场景中对道路特征的准确评估能力，本研究探索了 LaneSegNet 架构，该方法将拓扑信息与车道线数据集成，以提供更多上下文理解道路环境的能力。通过修改特征提取器和变换器编码器 - 解码器堆栈，我们发现在训练时间和预测精度之间可以得到有趣的权衡，某些组合显示出有希望的结果。这项研究为根据可用计算资源优化 LaneSegNet 提供了宝贵的见解，使之对资源有限的用户更具可行性，并增强了对资源更丰富的用户的能力。

Jun, 2024