CVPRMar, 2020

视频场景全面理解的精简语义

TL;DR本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议,能够同时学习单目摄像机所需的几何、运动和语义信息,从而实现对整个场景的全面识别。实验结果表明,该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现,并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。