- RoboBEV: 面向鲁棒的鸟瞰图感知
使用 RoboBEV 基准套件从多个角度评估不同 Bird's eye view 模型的鲁棒性,发现模型在内分布数据集上的表现与在分布外数据集上的性能存在强烈的相关性,但也存在不同方法相对性能差异较大的问题。同时,预训练和无深度 BEV 转 - 有效的几类点云分类任务需要什么?
该研究对最近在机器学习领域受到欢迎的少样本学习在三维感知上的应用进行了深入系统研究,提出了一种新的组件 Cross-Instance Adaptation(CIA) module,将其插入到当前基线模型中可显著提高表现,并在两个新的基准数据 - CVPRLinK: 基于激光雷达的三维感知的线性核
提出了一种名为 LinK 的方法,通过使用线性卷积核生成器和重复利用重叠块中预先计算的聚合结果来扩展感受野,从而成功实现每个体素在 21x21x21 范围内感知上下文,并在三维物体检测和语义分割任务中取得了显着表现。
- CVPRDSVT:具有旋转集的动态稀疏体素变换器
本文介绍了动态稀疏体素变换器(DSVT),它是一个用于室外 3D 感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云,我们提出了动态稀疏窗口注意力,这将每个窗口中的一系列局部区域根据其稀疏性划分,并以完全并行的方式计算所有区域的特征。在 - VN-Transformer: 旋转等变注意力机制应用于向量神经元
本文介绍了一种称为 VN-Transformer 的新型体系结构,以解决当前 VN 模型存在的一些缺点,包括推导出一种旋转等变的注意机制,扩展 VN 框架以支持非空间属性,在点云分辨率的多尺度缩减方面实现旋转等变,最终应用 VN-Trans - PETRv2: 多摄像头图像三维感知的统一框架
本文提出了 PETRv2,这是一个统一的框架,用于从多视角图像中进行三维感知,基于 PETR,PETRv2 利用先前帧的时间信息进行了时间建模,扩展了 PETR 中的 3D 位置嵌入。PETRv2 提出了一种简单而有效的解决方案,并通过引入 - ICML基于破损数据的点云分类性能比较与分析
本文提出了一种基于点云的分类算法,通过对常见三维环境噪声进行分类以及分类器的性能评估,分析了点云分类器的健壮性和泛化性,提出了一些有效的技术来增强点云分类器的健壮性。
- 幕后探秘:学习遮挡形状用于 3D 物体检测
该论文提出了基于 LiDAR 的 3D 目标检测模型 BtcDet,利用该模型能够学习物体形状先验并预测点云中部分被幕布覆盖的物体形状,结合占用概率地图和候选框精修模块,BtcDet 能够检测出 KITTI 数据集上汽车和自行车等的 3D - ROCA:单图像下的强鲁棒性 CAD 模型检索和对齐
ROCA 是一种新颖的端到端方法,用于从形状数据库中获取和对齐 3D CAD 模型到一幅输入图像,从而实现对 2D RGB 观察场景的 3D 感知,该方法基于密集的二维 - 三维物体对应和 Procrustes 对齐的可微对齐优化,同时通过 - ICCVPatch2CAD:单张图像中自然环境下的形状检索的补丁嵌入学习
本文介绍了一种基于 CAD 模型的方法,通过构建 2D 图像和 3D CAD 模型之间的联合嵌入空间,实现了对物体形状的精确估计和检测。试验结果表明,该方法对于复杂场景中的图像检测更为鲁棒。
- ICCVPri3D:3D 先验能够帮助 2D 表征学习吗?
探讨了利用几何约束来学习视角不变、几何感知表达,通过对 RGB-D 数据进行对比度学习,实现从 3D 先验信息到 2D 表达的迁移,并在语义分割、实例分割、室内物体检测中实现了显著提升。
- CVPRLiDAR 物体检测可实现的对抗样本
本文提出了一种生成通用三维对抗目标的方法,用以干扰自动驾驶系统中激光雷达探测器,这一方法成功率高达 80%,并开展了一些防御研究,旨在建立更安全可靠的自动驾驶系统。
- 点云领域自适应的自监督学习
本篇论文探究了自监督学习在 3D 感知问题的领域自适应中的应用,通过提出基于形变重构的预训练任务以及一种名为 PCM 的新颖训练流程,对分类和分割的领域适应数据集进行了评估,取得了相较于现有和基准方法的巨大改进。
- CVPR路规:使用语义交互的卷积模型预测驾驶行为
这篇论文提出了一种基于深度卷积模型的统一表征方法,该方法在使用 3D 感知信号和语义地图的基础上,通过深度卷积模型,学习了实体和场景之间的交互,并能够有效地预测自动驾驶系统中实体的行为表现。
- CVPRCodeSLAM - 学习一种紧凑的、可优化的密集视觉 SLAM 表示
本文介绍了一种基于单张图像强度数据的密集场景几何表示方法,在单目稠密 SLAM 系统中具有优异的性能表现。
- 一种用于车辆三维检测的通用流水线
本文提出了一种灵活的管道来采用任何 2D 检测网络并将其与 3D 点云融合,以产生最小的 2D 检测网络变化的 3D 信息,使用卷积神经网络(CNN)进行改善,实现了机动车无人驾驶三维物体感知,排名第二。
- MM多车立体事件相机数据集:用于三维感知的事件相机数据集
本文介绍了一个新的被动感知方式 —— 事件相机,可以完成多种 3D 感知任务,并提供了一个涵盖各种环境和照明水平的大型数据集,包括了事件流、灰度图像和 IMU 读数,并提供了真确的姿势和深度图像。同时还提供了来自基于框架的立体相机系统的同步