360° 视频深度和相机运动的自监督学习
本文提出了一个 360 度深度估计的方法,结合自监督学习和有监督学习,并使用全局信息编码的视觉 transformer 实现全局非局部融合块,提高了深度估计的准确性和整体效果。在多个基准测试中,我们的方法在之前的研究工作中取得了显著的改进和最先进的表现。
Sep, 2021
本文探讨了自我监督的球面视图综合方法对于学习单目 360 度深度的可行性,并利用几何形式提出了水平和垂直基线、三目的结果。同时,本研究还展示了在等距矩形域内应用传统 CNN 的表现更佳的方法,并利用地面真实深度数据进行比较,结果表明①替代性研究方向可能更适合实现更高质量的深度感知。
Sep, 2019
本文提出了一种无监督学习框架,通过使用视图合成作为监督信号,同时训练深度和相机位姿估计网络以完成从非结构化视频序列中的单目深度和相机运动估计的任务。经验评估表明,我们的方法具备与基于监督方法使用地面真值位姿或深度进行训练的方法相当的单目深度估计能力,并且在相似的输入设置下,姿态估计表现良好。
Apr, 2017
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
本论文研究了 360 图像的深度估计问题,提出了使用重新渲染的 3D 在线数据集来解决缺乏高质量 360 数据集的挑战,并使用这个数据集实现了端对端的深度估计模型
Jul, 2018
提出一种新的神经网络架构,用于解决 360° 图像中的球面视差问题,并通过学习可移位滤波器构建代价体积以缓解失真问题,实验结果表明其对现有算法具有较好的鲁棒性和准确性。
Nov, 2019
360 度图像的深度估计是虚拟现实、自主导航和沉浸式媒体应用中至关重要的,本研究提出了一种使用未标记 360 度数据的深度估计框架,通过六面立方体投影技术生成伪标签来高效标注 360 度图像的深度,并在深度估计的准确度上展示了显著改进,特别是在零样本情况下。
Jun, 2024
建立了一种自监督深度和相机自运动估计系统,能够预测准确的深度图、相机姿态和相机内部参数,并通过基于成本体积的监督方式提高了估计的准确性。
Aug, 2023
通过使用广义时空上下文、姿势一致性约束和精心设计的光度损失掩蔽,我们将自监督单目深度和自我运动估计扩展到大基线多摄像机装置,从而学习生成密集、一致且具有尺度感的点云,这种点云与典型的 LiDAR 扫描仪具有相同的完整全景 360 度视场,并且我们提出了一种新的尺度一致评估指标更适用于多摄像头设置。
Mar, 2021
提出了一种新颖的无监督学习深度和自我运动的方法,它主要基于对场景的推断 3D 几何形状进行对齐,并与基于光度学营养和有效性掩模的 2D 损失相结合,最终得出在 KITTI 数据集上的优越结果。
Feb, 2018