- 深度感知内窥镜视频修复
引入了一种新颖的基于深度的内窥镜视频修复 (DAEVI) 框架,通过直接从视觉特征进行深度估计、有效地融合视觉和深度信息以及评估 RGB-D 序列的准确性,实现了比最先进方法 PSNR 提升 2% 和 MSE 降低 6% 的优越性能,进一步 - WaterMono: 水底自助单目深度估计的教师引导异常遮蔽和增强提升
WaterMono 是一个用于深度估计和图像增强的新型框架,针对水下场景中的挑战,通过采用教师引导的异常掩模、深度信息结合水下图像成像模型生成增强图像以及旋转蒸馏策略来提高模型的鲁棒性,从而有效地实现了深度估计和图像增强任务。
- 通过自我监督辅助深度估计学习增强目标跟踪
RGB-D 跟踪大大提高了物体追踪的准确性,但其对真实深度输入的依赖性和多模态融合的复杂性限制了其在各种场景中的适用性。我们提出了一种名为 MDETrack 的新方法,通过受监督或自监督辅助单眼深度估计学习,训练一个具有理解场景深度能力的跟 - 基于机器人的袖珍输送任务在腹腔镜手术基础中的受限模仿学习
通过模仿学习,在腹腔镜手术的基本技巧训练中,提出了一种机器人执行插销转移任务的实现策略,旨在开发用于腹腔镜手术的自主机器人。
- SAID-NeRF:透明物体的分割辅助 NeRF 深度补全
使用 Visual Foundation Models(VFMs)以零样本、无标签的方式,通过同时重建语义场和增强模型来指导 NeRF 重建过程,从而获取透明物体的准确深度信息。我们的方法 SAID-NeRF 在透明物体深度完成数据集和机器 - 单视图弱监督单目 3D 检测
利用深度信息,无需任何三维标注或其他训练数据,SKD-WM3D 提出了一种弱监督的单目三维检测框架,通过融合深度信息将图像特征转化为三维表示,有效地消除了单目场景中的深度歧义。实验证明,SKD-WM3D 明显超过了最先进的方法,甚至与许多全 - DART: 深度增强准确实时背景抠图
利用 RGB-Depth (RGB-D) 相机提供的丰富深度信息,实时改善背景抠图性能,使其具备更高的准确性和处理速度。
- 通过级联深度估计和校准实现准确的基于摄像头的 3D 物体检测
本文提出了一个基于相机的 3D 目标检测的级联框架,通过深度估计和深度校准来有效地学习深度信息,实现从 2D 到 3D 空间的特征提取和目标定位。在多个检测器上进行广泛实验,取得了较高的性能表现。
- 仅自底向上查看的单目三维物体检测
YOLOBU 是一种基于图像特征列的新方法,它通过底 - up 方式建立像素之间的关系,充分利用位置线索进行单目 3D 检测,并在 KITTI 数据集上展示出其有效性和优越性。
- EyeLS: 利用阴影引导的机器人眼科手术眼内靶点接近仪导航系统
通过使用目标和仪器尖端的阴影位置来估计它们的相对深度位置,并相应地优化仪器尖端的插入轨迹,我们的方法成功地实现了对视网膜模型的目标接近,并在不损坏视网膜的手术模拟器中达到了浮动目标和视网膜目标的平均深度误差分别为 0.0127mm 和 0. - TransPose:基于几何感知的 Transformer 的 6D 物体姿态估计
TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架,用于提取和利用深度信息中的几何特征,以实现更准确的预测。通过统一采样点云,并借助设计的局部特征提取器和图卷积网络提取局部几何特征;采用 Tran - 通过深度信息引导特征蒸馏和采样的无监督语义分割
使用深度信息和无监督学习方法改进语义分割,通过对特征和深度地图之间的关联进行空间相关性学习以提高性能,并在多个基准数据集上展示了显著的改进。
- 使用学习的彩色编码光圈从单个光学编码图像估计深度
利用光学编码和卷积神经网络的端到端优化方法,提出了一种多色滤光片的颜色编码孔径和卷积神经网络联合学习的深度估计方法,实验证明该方法能够提供更好的深度估计,并在真实场景中验证了该方法的可行性。
- 利用基于 Transformer 的框架提高图像字幕生成的深度信息
本研究通过整合 RGB 图像与深度信息进行图像描述,提出了一种基于 Transformer 编码 - 解码框架生成 3D 场景多句描述的方法,并在 NYU-v2 和斯坦福图像段落描述数据集上进行了实验,结果表明深度信息可以提高图像描述的效果 - 基于深度学习模型的驾驶策略预测
本项目实现了一个端到端系统,该系统接收来自普通摄像头的视频帧的综合视觉特征和来自点云扫描仪的深度信息,并预测驾驶策略(车辆速度和转向角度)。通过与真实世界经验丰富的驾驶员的标准行为进行比较,我们验证了我们系统的安全性。我们的测试结果表明,在 - 双像素视差提取的连续成本聚合
该论文提出了在半全局匹配框架内使用连续代价汇聚方案来从 Dual-Pixel 图像中提供精确的连续视差,并通过在图像路径上聚合二次系数来实现聚合步骤,具有封闭形式的像素最小化,同时保持总代价的二次形式。同时,连续形式允许在不同尺度上进行强大 - MAVD:首个带深度信息的开放式大规模普通话视听数据集
这项工作旨在建立 MAVD,这是一个新的大规模普通话多模态语料库,包括由 64 名中国本土说话者发出的 12,484 个话语,其中包括深度信息,可用于评估音频视觉语音识别的有效性。
- ConsistentNeRF: 在 3D 一致性方面增强神经辐射场,用于稀疏视图合成
该论文提出了 ConsistentNeRF 方法,通过深度信息规范化像素之间的 3D 一致性,以提高 NeRF 在稀疏视图下的重建质量。在 DTU、NeRF Synthetic 和 LLFF 等基准测试中,与基线方法相比,该方法可以显著提高 - CVPRMSMDFusion: 多尺度深度种子融合 LiDAR 和摄像头进行 3D 物体检测
基于激光雷达和摄像头信息的融合对于实现自动驾驶系统中的准确可靠的三维物体检测至关重要。在该文中,提出了一种新颖的框架,其中利用了深度信息和激光雷达与摄像头之间的交互,实现更全面的多模态融合特征,并在 nuScenes 测试基准中取得了最新的 - 3D 标注工具
介绍了一个名为 3D Labeling Tool(3DLT)的标注工具,利用深度信息从图像中重建三角网格来对目标进行一次标注,大大提高了标注的速度。该工具可用于 2D 图像和 3D 三角网格,并且采用注册和异常值检测等技术提高标注精度。