视频场景全面理解的精简语义

CVPRMar, 2020

Distilled Semantics for Comprehensive Scene Understanding from Videos

Fabio Tosi, Filippo Aleotti, Pierluigi Zama Ramirez, Matteo Poggi, Samuele Salti...

TL;DR本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议，能够同时学习单目摄像机所需的几何、运动和语义信息，从而实现对整个场景的全面识别。实验结果表明，该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现，并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。

Abstract

Whole understanding of the surroundings is paramount to autonomous systems. Recent works have shown that deep neural networks can learn geometry<

autonomous systems deep neural networks geometry motion monocular cameras

发现论文，激发创造

视频中深度和自运动的无监督学习

本文提出了一种无监督学习框架，通过使用视图合成作为监督信号，同时训练深度和相机位姿估计网络以完成从非结构化视频序列中的单目深度和相机运动估计的任务。经验评估表明，我们的方法具备与基于监督方法使用地面真值位姿或深度进行训练的方法相当的单目深度估计能力，并且在相似的输入设置下，姿态估计表现良好。

Apr, 2017

几何与语义相遇：半监督单目深度估计

通过利用语义标记的图像和通过图像变形获得的无监督信号来联合学习语义分割和深度估计，提出了一种半监督的深度估计方法，结果表明在 KITTI 数据集上超过了单目深度估计的先进方法。

Oct, 2018

自然场景视频中的深度估计：来自未知相机的无监督单目深度学习

本研究提出了一种新的方法，使用相邻视频帧的一致性作为监督信号，同时从单目视频中学习深度预测、自运动、目标运动和相机内参数，并且首次实现对相机内参进行无监督学习，从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Cityscapes、KITTI 和 EuRoC 数据集上验证了正确性，并取得了新的最佳性能。

Apr, 2019

自监督单目场景流估计

本文提出的单目场景流（Scene Flow）估计方法基于一个卷积神经网络（CNN），通过充分考虑光流代价体积，成功估算出深度和三维运动。我们采用了自监督学习方法，利用三维损失函数和遮挡推理来提高估计精度。实验结果表明，该方法在单目场景流估计领域取得了最佳性能，同时在光流和单目深度估计子任务上也获得了很好的结果。

Apr, 2020

动态场景下的无监督单目深度学习

本研究提出一种方法，利用单眼光度一致性为唯一的监督，联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计，通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化，有效提高了单眼深度预测模型的准确性。

Oct, 2020

自监督单目深度的语义引导表示学习

本文研究自监督学习中如何直接运用语义结构来指导几何表示的学习，提出了一种新的基于预训练语义分割网络和像素自适应卷积的架构，并使用两阶段训练过程来克服动态对象上的常见语义偏差。结果表明该方法在所有像素、细节和语义类别上都优于现有方法，实现了自监督单目深度预测的最新水平。

Feb, 2020

视频中的自监督物体运动和深度估计

本文提出了一种自监督学习框架，从视频中估算单个对象的运动和单眼深度，并将对象运动建模为六个自由度刚体变换；此外，该方法还使用实例分割掩码引入对象信息，并通过引入新的几何约束损失项消除运动预测的尺度歧义，实验结果表明，该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动，与自监督研究方法相比，在 3D 场景流预测方面有更好的表现，对动态区域的视差预测也有所贡献。

Dec, 2019

MGNet: 自动驾驶的单目几何场景理解

MGNet 是一个用于单目几何场景理解的多任务框架，结合了全景分割和自监督单目深度估计两个任务，旨在提供低延迟、实时单 GPU 推理，实现单高分辨率摄像头图像的密集 3D 点云和实例感知语义标签。研究人员在 Cityscapes 和 KITTI 数据集上进行了验证，发现其与其他实时方法的性能相当。

Jun, 2022

学习在没有三维监督下估计单视角体积流动运动

本文介绍了一种训练深度神经网络，从单目输入的视频中联合推断流体中移动的三维流和体积密度的方法，该方法不需要任何 3D 地面真实数据用于训练，并且可以在没有体积监督的情况下，利用实际世界的捕捉设置观察来训练模型。

Feb, 2023

自监督单目深度估计的细粒度语义感知表示增强

本文提出了在无监督单目深度估计中引入跨域语义信息以提高几何表示的新思路，包括度量学习方法和特征融合模块，并在 KITTI 数据集上全面评估，在弱质地区和物体边界的监督限制下，本文提出的方法优于现有技术。

Aug, 2021