- SelfReDepth: 自监督实时消费级传感器深度恢复
使用自我监督学习技术,通过 RGB-D 传感器捕获的完整深度图像,提出了 SelfReDepth 深度恢复的自监督深度学习方法,用于去噪和填充深度图,目标是在实时动态环境中高质量地去噪深度视频,与各种 RGB-D 传感器兼容并可用于其他深度 - CVPR传感器无关深度估计的深度提示
通过解耦输入模态(例如图像和深度),我们设计了一种新颖的深度提示模块来减轻测量偏差,提供绝对尺度深度图,并通过广泛的评估证明了其有效性。
- 单眼腹腔镜视频剪辑中解剖和手术器械的三维跟踪的神经场
该研究提出了使用神经场方法进行腹腔镜视频追踪的技术,可以同时追踪手术工具和解剖结构,具有较高的追踪精度,并能生成与预训练深度估计器相媲美的伪深度图像,从而展示了使用神经场进行单目腹腔镜场景的 3D 重建的可行性。
- 自我注释的三维几何学习以去除模糊点
提出了一种使用自动检测和注释的方法来训练模糊点移除分类器,并通过实验证明该方法优于传统过滤器和其他自我注释方法。
- 使用深度学习的结构光扫描数据的超采样
本文针对使用结构光技术获取的深度图进行提高分辨率的问题,通过修改 FDSR 和 DKN 两个深度学习模型以适应高分辨率数据,并实施数据预处理技术进行稳定训练。在我们自定义的 1200 个 3D 扫描数据集上对模型进行训练,并使用定性和定量评 - GC-MVSNet:多视角,多尺度,几何一致的多视图立体视觉
本文介绍了一种新的方法,通过在学习过程中明确地鼓励多个源视图的参考视图深度图的几何一致性,加速学习过程,达到了 DTU 和 BlendedMVS 数据集的最新技术水平,并在 Tanks and Temples 基准上获得了有竞争力的结果。据 - 增强移动人脸反欺诈:面向屏幕闪光下的多样化攻击类型的鲁棒性框架
本文提出了一种抗各种攻击类型的人脸反欺诈框架 (ATR-FAS),通过使用多个网络生成深度图并利用多个专家网络的结果进行混合,实现了对欺诈人脸的稳定检测,并且在大量实验证明了该框架显著优于现有最先进的方法。
- EVE: 基于深度图引导和时序一致性约束的高效零样本基于文本的视频编辑
通过深度图和时序一致性约束,提出了一种强大且高效的零样本视频编辑方法 EVE,能够以可承受的计算和时间成本派生出令人满意的视频编辑结果,并构建了新的基准 ZVE-50 数据集以促进未来研究。
- RGB-D 融合:基于图像条件的人型主体深度扩散
RGB-D-Fusion 模型使用条件去噪扩散概率模型从人类主体的低分辨率单眼 RGB 图像生成高分辨率深度图,并引入深度噪声增强技术以提升超分辨率模型的鲁棒性。
- ICCV约束多视角立体的深度图几何:具有鞍状深度单元的双深度方法
通过引入一个由马鞍形细胞构成的理想深度几何结构,本文提出了一种粗到细的深度标定模型(Dual-MVSNet),该模型能够产生一个与真实地表上下波动的深度平面;与已有方法相比,Dual-MVSNet 在 DTU 基准测试中获得了较高的排名,并 - 自适应距离间隔分离:渐进理解深度图的单目三维物体检测
本文提出了一种名为自适应距离间隔分离网络(ADISN)的框架,该框架将深度地图视为介于 LiDAR 和图像之间的形式,并通过自适应分割方法将深度地图划分为不同的子图,利用 CNN 提取特征并通过不同的分支分别学习定位检测任务和外观任务,同时 - SAD:RGBD 分割
该研究通过提出 Segment Any RGBD(SAD)模型来解决 Segment Anything Model(SAM)对几何信息关注不足的问题,该模型将 SAM 与深度图像渲染相结合,同时包括了开放词汇的语义分割,实现了 3D 万象分 - 通过结构约束对自我训练进行规范化,用于无监督领域自适应
该研究提出一种基于深度信息的结构性正则化方法,将物体对比约束融入传统的自学习目标中,通过 RGB 图像和深度图像的多模态聚类,实现对真实物体的一致性提取。在多个无监督领域自适应测试中,改进的方法在语义分割方面取得了显著效果提升。
- CLIP2Point:使用图像深度预训练将 CLIP 转换为点云分类
提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point,通过加强深度特征捕捉视觉和文本特征,增强深度聚合不变性,以实现将 CLIP 知识转移到 3D 视觉,并在零样本和少样本分类任务上实现了最优结果。
- ECCV代数曲面近似可微渲染
本文提出一种称为 “Fuzzy Metaballs” 的紧凑且可解释的表示形式的近似可微渲染器,该渲染器主要通过深度图和轮廓渲染形状,相对于网格的可微渲染器,我们的方法具有更高的效率和质量,可用于解决视觉任务,评估中我们发现,我们的方法是唯 - CVPR带有掩模指导的分层深度细化
本文提出了一种基于掩码图像的深度优化方法,该方法可以使用自监督学习技术和单张图像估计模型进行深度的有效细化,能够较好地解决单张深度估计模型在物体内外边界处存在的问题,并在真实应用中取得了良好的效果。
- CVPR快速轻量级近场光度立体
该研究介绍了第一个基于端到端学习的解决方案,用于近场光度立体成像,在这种情况下,光源靠近所感兴趣的目标。研究者们使用递归多分辨率方案来估计每个步骤中整个图像的表面法线和深度图,并且预测的每个尺度的深度图然后用于估计下一个尺度的每像素照明。该 - IterMVS: 迭代概率估计用于高效多视角立体
IterMVS 提出了一种新的数据驱动方法来进行多视角高分辨率立体视觉,并使用基于 GRU 的估计器对深度的像素概率分布进行编码,结合多尺度匹配信息进行多次迭代,并通过分类与回归的结合来提取深度图。在 DTU,Tanks&Temples 和 - DIML/CVL RGB-D 数据集:自然室内外场景的 2M 个 RGB-D 图像
本研究介绍了 DIML/CVL RGB-D 数据集,该数据集由 200 万张彩色图像及其对应的深度图组成,包括自然内外场景,并提供获取、处理、格式和工具箱的详细信息。
- MMRGB-D 显著目标检测的跨模态不一致交互网络
通过重新考虑两种模态的重要性,本文提出了一种新的跨模态矛盾交互网络(CDINet),用于 RGB-D SOD。实验结果表明,这种网络在定量和定性上都优于 15 种现有的方法。