WorDepth: 变分语言先验对单目深度估计的应用
本文提出了一种称为 ZeroDepth 的单目深度估计框架,采用输入级几何嵌入和变分潜在表示,并将编码器和解码器阶段解耦合,可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内(NYUv2)和户外(KITTI,DDAD,nuScenes)基准测试中,使用相同的预训练模型取得了最新的最佳成果,优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。
Jun, 2023
使用自然语言作为一种显示世界结构的显式先验的研究中,首先证明了语言模型在训练过程中编码了这种隐式偏差,并通过一个简单的学习方法进行提取。然后,通过一个供给 MDE 系统使用的现成实例分割模型提供标签作为语言模型输入的显式假设源。在 NYUD2 数据集上展示了我们方法的性能,并与基准线和随机对照进行了比较的改进。
Mar, 2024
该论文提出了一种自监督学习的方法,利用几何先验和自编码器来提高单目深度估计的效果,实验结果表明该方法在 KITTI 数据集上的表现优于现有方法,适用于高性能 GPU 和嵌入式设备。
Aug, 2019
最近的研究在单目深度估计方面取得了很大的进展,通过加入自然语言作为额外的指导获得了令人印象深刻的结果,然而,语言先验的影响尚未被探索,特别是在泛化性和鲁棒性方面,本文通过量化这一先验的影响,并引入方法来评估其在不同背景下的有效性,我们发现当前的语言导向深度估计器只能在场景级描述方面表现最佳,而在低级描述方面却表现更差。尽管利用了额外的数据,这些方法在面对针对性的对抗攻击时不具备鲁棒性,并且在分布偏移增加时性能下降。最后,为未来的研究提供基础,我们识别出了这些方法的故障点,并提供了更好理解这些缺点的见解。随着越来越多的方法在深度估计中使用语言,我们的研究结果突出了需要在实际环境中进行有效部署时需要认真考虑的机会和陷阱。
Apr, 2024
本研究提出一种方法,利用单眼光度一致性为唯一的监督,联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计,通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化,有效提高了单眼深度预测模型的准确性。
Oct, 2020
论文综述了五篇应用不同技术(包括监督、弱监督和无监督学习技术)尝试解决单目深度估计问题的论文,并比较这些论文之间的改进和理解,最后探讨了可能有助于更好地解决这一问题的潜在改进。
Jan, 2019
通过利用语义标记的图像和通过图像变形获得的无监督信号来联合学习语义分割和深度估计,提出了一种半监督的深度估计方法,结果表明在 KITTI 数据集上超过了单目深度估计的先进方法。
Oct, 2018
基于大规模数据训练和解决来自不同摄像机模型的度量歧义,实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型,并在 7 个零样本基准测试上展现了领先表现。
Jul, 2023