单目视频的逐帧深度与运动学习

Dec, 2019

Instance-wise Depth and Motion Learning from Monocular Videos

Seokju Lee, Sunghoon Im, Stephen Lin, In So Kweon

TL;DR我们提出了一种全面的联合训练框架，该框架在单目相机设置中明确建模多个动态对象、自我运动和深度而不需要监督，并且具有高效的深度和运动估算，并通过实验证明了其优于现有深度和运动估算方法。

Abstract

We present an end-to-end joint training framework that explicitly models 6-dof motion of multiple dynamic objects, ego-motion and depth in a monocular camera setup without supervision. Our technical contributions are three-fold. First, we propose a differentiable forward rigid projecti

6-dof motion monocular camera setup depth and motion learning photometric and geometric consistency loss video instance segmentation

发现论文，激发创造

通过实例感知的投影一致性学习动态场景下的单目深度

本文提出了一种监督学习的、以单目摄像头为基础的端到端联合训练框架，该框架明确地建立了多个动态物体的 6-DoF 运动、自运动和景深，通过使用神经正向投影模块建立几何正确的投影流水线，在建模每个刚性物体的运动时突出了逆投影和正向投影之间的基本差异。通过使用任何现成的实例分割和光流模型，我们介绍了一种通用的自动注释方案来生成视频实例分割映射，这些映射将用作训练管道的输入。最后，我们使用 KITTI 和 Cityscapes 数据集进行了广泛的实验研究，证明了我们的框架优于现有的深度和运动估计方法。

Feb, 2021

视频中的自监督物体运动和深度估计

本文提出了一种自监督学习框架，从视频中估算单个对象的运动和单眼深度，并将对象运动建模为六个自由度刚体变换；此外，该方法还使用实例分割掩码引入对象信息，并通过引入新的几何约束损失项消除运动预测的尺度歧义，实验结果表明，该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动，与自监督研究方法相比，在 3D 场景流预测方面有更好的表现，对动态区域的视差预测也有所贡献。

Dec, 2019

视频中深度和自运动的无监督学习

本文提出了一种无监督学习框架，通过使用视图合成作为监督信号，同时训练深度和相机位姿估计网络以完成从非结构化视频序列中的单目深度和相机运动估计的任务。经验评估表明，我们的方法具备与基于监督方法使用地面真值位姿或深度进行训练的方法相当的单目深度估计能力，并且在相似的输入设置下，姿态估计表现良好。

Apr, 2017

动态场景下的无监督单目深度学习

本研究提出一种方法，利用单眼光度一致性为唯一的监督，联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计，通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化，有效提高了单眼深度预测模型的准确性。

Oct, 2020

自然场景视频中的深度估计：来自未知相机的无监督单目深度学习

本研究提出了一种新的方法，使用相邻视频帧的一致性作为监督信号，同时从单目视频中学习深度预测、自运动、目标运动和相机内参数，并且首次实现对相机内参进行无监督学习，从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Cityscapes、KITTI 和 EuRoC 数据集上验证了正确性，并取得了新的最佳性能。

Apr, 2019

使用三维几何约束从单 ocular 视频中无监督学习深度和自我运动

提出了一种新颖的无监督学习深度和自我运动的方法，它主要基于对场景的推断 3D 几何形状进行对齐，并与基于光度学营养和有效性掩模的 2D 损失相结合，最终得出在 KITTI 数据集上的优越结果。

Feb, 2018

关注和对比学习的联合深度和运动场估计

通过一种自监督学习框架，提出一种基于动态关注模块的两阶段投影管道，以明确解耦相机自我运动和物体运动，并提出了一种基于对比采样一致性的物体运动场估计方法，该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。

Oct, 2021

DO3D: 自监督学习单目视频的分解目标感知 3D 运动和深度

提出了一种自监督方法，可以从单目视频中联合学习 3D 运动和深度。通过利用深度和运动网络相互协作来准确建模现实场景的几何和动态，进而改进了深度估计和 3D 动作估计的性能。

Mar, 2024

从单目视频序列中学习深度

从单目视频序列中学习单张图像深度估计模型是一个非常具有挑战性的问题。在本文中，我们提出了一种新颖的训练损失，使我们能够在训练过程中包含更多图像以进行监督。我们提出了一个简单而有效的模型来考虑帧与帧之间的像素运动。同时，我们还设计了一种新颖的网络架构来进行单张图像估计。当结合在一起时，我们的方法在自监督设置下，在 KITTI 数据集上产生了最先进的结果。

Oct, 2023

单目视频中的无监督尺度一致深度与自运动估计

本文介绍了一种基于几何一致性损失和自发现遮罩的深度估计和自我运动估计模型，模型能够处理运动物体和目标的遮挡问题并保证不同样本间的比例一致性。从实验结果来看，我们提出的深度估计模型在 KITTI 数据集上性能最好，并且我们提出的自动驾驶路线规划模型相对于之前的模型在预测全局一致的相机轨迹上有着很大的优势。

Aug, 2019