从立体视频中学习残差流作为动态运动
该论文提出了一个从立体视频中学习独立移动物体动作的系统,该系统使用的唯一人工注释是 2D 物体边界框,并从中引入了对象的概念。与以前的基于学习的工作不同,该工作集中于预测每个图像的密集像素光流场和 / 或深度图,我们提出了从物体实例特定的 3D 场景流图和实例掩模预测来推断每个物体实例的运动方向和速度的方法,并且我们的网络考虑了问题的 3D 几何,允许它相关输入图像。我们进行了实验,评估了我们的 3D 流向量、深度图和投影的 2D 光流的精度,在这些实验中,我们联合学习的系统优于先前独立训练每个任务的方法。
Jan, 2019
本文提出在监督学习的基础上通过学习场景的刚性结构,从两张图片中推断场景对于相机的运动以及产生的 3D 场景流结构,相比于其他 3D 场景流预测方法表现更佳,并提供了半合成动态场景数据集和评估拆分。
Apr, 2018
提出了一种端到端场景流学习的替代方法,通过联合估计非刚性残留流和动态 3D 场景的自运动流来学习场景流,引入了自监督信号以增强模型训练,能够将场景流分解为非刚性流和自运动流并且在当前最先进的监督方法上取得了更好的表现。
Sep, 2020
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
我们提出了一种统一的方法来共同学习光流和立体匹配。我们的第一条直觉是,立体匹配可以被建模为光流的一种特殊情况,我们可以利用立体视频背后的三维几何来指导这两种形式的对应关系的学习。然后,我们将这个知识纳入到最先进的自我监督学习框架中,并训练一个单一的网络来估计流和立体。其次,我们揭示了先前自我监督学习方法中的瓶颈,并提出了创建一组新的具有挑战性的代理任务来提高性能的方法。这两个洞察力产生了一个单一的模型,在 KITTI 2012 和 2015 基准测试中,这些模型的准确性甚至超过了包括 PWC-Net 和 FlowNet2 在内的几种最先进的全监督方法。
Apr, 2020
本研究提出了一种新的多帧场景流计算方法,包括景深和光流以及相机自运动,同时从移动立体相机中观察动态场景,并将移动对象与固定场景分割开来。该技术在立体匹配和视觉里程计中使用独特的策略,融合移动目标的光流信息和相机基于运动流的信息来提高场景深度和相机自运动估计的精度和效率。
Jul, 2017