- 生成式摄像镜头推车:极端单目动态新视角合成
提出了一种利用大规模扩散先验的可控单眼动态视图合成管道,通过给定任何场景的视频,根据一组相对相机姿态参数,从任意其他选定的视角生成同步视频。
- 从稀疏点到稠密点云:通过有限的 LiDAR 数据增强 3D 检测
提出了一种结合单目和基于点云的三维检测的平衡方法,使用低成本、低分辨率的传感器获取仅有 512 个点,然后将这有限的三维信息与单张图像结合重建完整的三维点云,通过与多模态现成的三维检测器结合使用,使得三维检测的准确率相比于最新的单目检测方法 - 自主驾驶中基于自我监督学习的深度预测
自主驾驶中深度预测的挑战和应用的研究,使用单目自监督学习方法,提出了条件生成对抗网络以及一种基于变换器的刚性场景和未来深度预测方法,以及视频到视频深度映射模型,用于改进对环境几何和动态物体运动的理解和决策。
- 深度事件视觉里程计
基于事件相机,本研究提出了第一个单目纯事件系统 Deep Event VO (DEVO),通过稀疏追踪选定的事件块,显著减少了七个真实场景基准测试上的位姿跟踪误差,较单纯事件方法减少了 97%,并且通常优于或接近立体或惯性方法。
- CoBEV:利用深度和高度互补提升路边三维物体检测
路边基于摄像头的三维物体检测是智能交通系统中的一个重要任务,该研究提出了一种新的端到端单目三维物体检测框架 —— 互补 BEV(CoBEV),融合深度和高度信息,构建了强大的 BEV 表示,实现了一系列性能的提升,同时在具有挑战性的长距离场 - 基于令牌共享 Transformer 的轻量级单目深度估计
提出了一种使用 Transformer 来进行单目深度估计的 Token-Sharing Transformer(TST)架构,该架构通过全局令牌共享,在嵌入式设备中达到高吞吐量的准确深度预测,并在 NYU Depth v2 数据集上优于现 - 探索自监督单帧与多帧深度估计之间的相互影响
提出了一个新的自监督训练框架来充分利用单帧和多帧深度方法之间的相互影响,其中包括像素适应深度采样模块、最小重投影教师信号以及将单帧深度作为先验来进一步提高多帧深度估计性能。实验结果表明,该方法在自监督的单目设置中优于现有方法。
- CVPRBEV-LaneDet: 一种简单有效的 3D 车道线检测基线模型
本文提出了一种高效坚韧的单目三维车道检测方法 BEV-LaneDet, 通过引入虚拟相机、关键点表示方法和空间变换金字塔模块,能够更好地处理多样的三维车道结构,并在检测准确率上表现出色。
- CVPRHiMODE: 一种混合单目全方位深度估计模型
本论文研究了使用单目全向视角图进行深度估计的问题,提出了一种基于混合 CNN 和 Transformer 的 HiMODE 深度估计模型,该模型可以很好地恢复小目标细节,避免由于获取地面实际深度图时可能出现的数据损失问题,并且具有更高的计算 - PL-VINS: 实时单目视觉惯性 SLAM 与点线特征
本文介绍了 PL-VINS 方法,它是一种实时的基于优化的单目视觉惯性 SLAM 方法,具有点和线特征,并通过研究隐藏参数调整和长度拒绝策略来呈现修改版 LSD 算法,并通过将空间线表示为 Plucker 坐标,以点线距离的形式建模的残差误 - 一次拍摄式 3D 摄影
本文介绍了一种端到端的系统,用于创建和查看单张 3D 照片,并阐述了算法和设计选择。作者采用新的单眼深度估计网络从 2D 输入图像中获取深度,在移动设备上进行处理,然后将其转换为基于网格的表示形式。这一方法在移动设备上仅需几秒钟的处理时间。
- 基于深度学习的单目人体姿态估计方法综述
本篇论文对基于深度学习的 2D 和 3D 人体姿态估计方法及其挑战、框架、数据集、度量标准、性能比较和未来研究方向进行了综述。
- CVPR自监督单眼深度估计的不确定性
本文提出的自监督方法能够在 KITTI 数据集上以最先进的精度预测深度图,并且能够用于在训练过程中估计深度图的不确定性。
- CVPR自监督单目场景流估计
本文提出的单目场景流(Scene Flow)估计方法基于一个卷积神经网络(CNN),通过充分考虑光流代价体积,成功估算出深度和三维运动。我们采用了自监督学习方法,利用三维损失函数和遮挡推理来提高估计精度。实验结果表明,该方法在单目场景流估计 - DeepCap: 单目弱监督下的人体表现捕捉
本文介绍了一种基于深度学习的单目稠密人体动作捕捉方法,利用多视角监督训练来消除了需要 3D 地面实况注释训练数据的需求,且通过将任务分离为姿势估计和非刚性面变形两个步骤使得其在质量和鲁棒性方面优于现有技术。
- 基于深度学习的单目深度估计:综述
该研究对基于深度学习的单张图像深度估计方法进行了调研,总结了常用的数据集、评价指标和不同的训练方式,并讨论了未来研究中的挑战和方向。
- ICCVMono-SF: 多视角几何结合单视角深度用于动态交通场景单目场景流估计
本文提出了一种称为 Mono-SF 的新型单目 3D 场景流估计方法,将多视角几何和单视深度信息相结合,使用统计方式的卷积神经网络 ProbDepthNet 来整合单视深度估计,并通过回校准技术提高估计深度的准确性。实验证明 Mono-SF - 利用传统视觉里程计增强自监督单目深度估计
该论文提出了一种自监督学习的方法,利用几何先验和自编码器来提高单目深度估计的效果,实验结果表明该方法在 KITTI 数据集上的表现优于现有方法,适用于高性能 GPU 和嵌入式设备。
- 使用交并比损失端到端训练的单目 3D 物体检测与盒式拟合
通过引入 SS3D 方法,成功在单目图像中实现三维物体检测,并通过建模异方差性提高了基准性能。该方法在保持简洁的同时,达到了当前状态下最高的检测精度,是实现自主驾驶等领域高性能检测的可靠框架。
- 自动驾驶的单目平面视图网络
通过将单目摄像头录制的车载视频进行简单变换,将观察对象投影到从鸟瞰角度看的平面视图上,从而能够在深度神经网络的支持下,通过检测车辆和行人的位置及方向来实现自动控制,其中 3D 物体检测等技术的应用能够显著减少碰撞事故。