- GraphRelate3D:上下文相关的基于关系图的三维物体检测
通过引入对象关系模块和图神经网络(GNN),从周围建议中提取空间信息并改进 3D 对象检测,该方法在 KITTI 数据集上相较基准方法 PV-RCNN 在简单、中等和困难难度级别的汽车类上分别提升了 0.82%、0.74% 和 0.58%, - 去除神经辐射场中的深度先验
该论文研究了如何通过集成单目深度估计方法与 NeRF 模型,来显著降低时间消耗、提高场景生成和物体去除的鲁棒性和质量,并结合 KITTI 数据集验证了该方法的有效性。
- 基于自我中心交并比的物体检测器定向安全
通过 Ego-Centric Intersection-over-Union (EC-IoU) 度量,提出一种面向安全的目标检测方法,以解决在自动驾驶等安全关键领域使用先进学习感知模型时的实际问题。在 KITTI 数据集上的实验结果表明,基 - TIE-KD: 基于教师独立和可解释的知识蒸馏的单目深度估计
一种名为 TIE-KD 的新型教师无关可解释知识蒸馏框架,基于深度概率图 (DPM) 对教师模型的输出进行解释,实现了高效的基于特征的知识蒸馏,提高了紧凑型学生模型的学习效能,并在评估了 KITTI 数据集后表现出了优于常规响应型知识蒸馏方 - MelNet:一种实时的深度学习目标检测算法
本研究介绍了一种名为 MelNet 的新颖深度学习算法用于目标检测,该算法使用 KITTI 数据集进行训练,并在训练 300 个时期后得到了 0.732 的 mAP 得分。结果突显了在某些情况下使用迁移学习的有效性,并且还表明通过仅在 KI - 多层次视觉引导的弱监督 3D 目标检测
对于弱监督的三维物体检测任务,本文提出了一种框架来研究如何在无需任何三维标签的情况下利用二维和三维领域之间的约束,通过三种视角的视觉数据建立二维和三维领域之间的关联。实验证明,在无需使用任何三维标签的情况下,该方法在 KITTI 数据集上取 - 从单目视频序列中学习深度
从单目视频序列中学习单张图像深度估计模型是一个非常具有挑战性的问题。在本文中,我们提出了一种新颖的训练损失,使我们能够在训练过程中包含更多图像以进行监督。我们提出了一个简单而有效的模型来考虑帧与帧之间的像素运动。同时,我们还设计了一种新颖的 - MS23D:一种使用多尺度语义特征点构建 3D 特征层的三维目标检测方法
MS$^{2}$3D 是一个两阶段的三维检测框架,利用小尺寸的体素提取细粒度的局部特征和大尺寸的体素捕捉长程局部特征,通过多尺度语义特征点构建三维特征层并计算特征点与目标质心的偏移,以提高特征聚合的效率,在 KITTI 数据集和 ONCE - 深度完成的可变形卷积再探讨
深度补全是从稀疏深度图生成高质量密集深度图的方法,本文通过重新思考可变形卷积的概念,提出了一个有效的架构,利用可变形核卷积作为单次细化模块,并在大规模 KITTI 数据集上取得了精度和推理速度方面的最新水平。
- 使用不确定性的信息数据选择在多模式物体检测中
本研究提出了一种基于深度学习的通用不确定性感知多模态融合模型,该模型采用多管道宽松耦合架构将点云和图像特征进行组合,并将不确定性嵌入在边界框生成中,以生成可靠的输出,在 KITTI 2D 物体检测数据集和其衍生的 “脏数据” 中得到了验证。
- CVPRDualRefine: 应用自监督方法的深度及姿态估计技术,通过迭代次数的外极线采样及精度提高达到平衡状态
本文提出了一种用于自监督多帧深度估计的 DualRefine 模型,通过反馈循环紧密耦合深度和姿态估计,使用一个深度均衡模型框架来迭代地改进深度估计,同时结合极线几何计算局部匹配成本,证明在 KITTI 数据集上具有竞争性的深度预测和里程计 - CVPRMonoATT:自适应令牌变换的在线单目三维物体检测
本文提出一种名为 MonoATT 的在线移动单眼 3D 物体检测框架,该框架采用形状和大小不同的异构令牌进行识别,并结合注意力机制和分数网络提高检测准确率,实验证明 MonoATT 在 KITTI 3D 基准上排名第一。
- 基于激光雷达的三维物体检测中的超分布检测
本文提出了一种基于特征提取的方法,用于检测 LiDAR-based 3D 物体检测中的异常输入,并通过使用 KITTI 数据集的实验结果表明不同的基于异常检测的方法对于不同输入的检测存在偏差,因此更多的综合方法和研究方向是必要的。
- ECCV自我迭代特征聚合:用于自监督单目深度估计
提出 Self-Distilled Feature Aggregation (SDFA) 模块,用于同时聚合一对低尺度和高尺度特征并保持它们的上下文一致性,提出了基于 SDFA 的网络用于自监督单眼深度估计,并设计了自蒸馏训练策略,在 KI - MonoViT:基于视觉 Transformer 的自监督单目深度估计
提出了一种新的基于 Vision Transformers(ViTs)和自监督单眼深度估计的框架 MonoViT,通过结合普通卷积和 Transformer 模型,能够在局部和全局推理,可以更准确地预测深度,达到了更高水平的性能,证明比其他 - ICCV任务中的细节:利用相互显现 - 本地化特征进行单目三维物体检测
本研究提出了 DFR-Net,一种动态特征反射网络,通过分离任务特定的特征并自我相互反映,以及自适应地重新调整各个子任务的训练进程,有效地解决了基于 KITTI 数据集的 3D 物体检测问题,同时与目前先进的 3D 检测框架的集成成本极低。
- AutoShape:实时形状感知单目三维物体检测
该研究提出了一种基于深度神经网络和形态感知的三维目标检测方法,利用二维关键点和对应的三维坐标以及二维 / 三维的几何约束提高检测性能,并在公共数据集 KITTI 上实现了最新的性能。
- CVPR自监督多帧单眼场景流
本文通过自监督学习介绍了一种基于多帧单目场景流网络的方法,该方法在保持实时效率的同时显著提高了准确性,并通过在 KITTI 数据集上进行测试达到了自我监督学习中的最新水平。
- ICCV基于几何的距离分解的单目三维物体检测
本文提出了一种新的基于几何学的距离分解方法,将物体的距离分解成最具代表性和稳定性的变量,即物理高度和在图像平面上的投影视高度,通过对距离分解,实现了 3D 边界框的直接预测,并在 KITTI 数据集上表现出最先进的性能。
- CVPRM3DSSD:单目 3D 单阶段物体检测器
本文提出了一个在特征对齐和非对称非局部注意力机制下的单目三维单级物体检测器 (M3DSSD),借助两步特征对齐来解决现有锚点法单目三维目标检测方法在特征匹配方面的缺陷,并提出了一种新的非对称非局部注意力块,实现更好的物体深度预测效果,并在