通过时空对应将立体匹配和光流联系起来
我们提出了一种统一的方法来共同学习光流和立体匹配。我们的第一条直觉是,立体匹配可以被建模为光流的一种特殊情况,我们可以利用立体视频背后的三维几何来指导这两种形式的对应关系的学习。然后,我们将这个知识纳入到最先进的自我监督学习框架中,并训练一个单一的网络来估计流和立体。其次,我们揭示了先前自我监督学习方法中的瓶颈,并提出了创建一组新的具有挑战性的代理任务来提高性能的方法。这两个洞察力产生了一个单一的模型,在 KITTI 2012 和 2015 基准测试中,这些模型的准确性甚至超过了包括 PWC-Net 和 FlowNet2 在内的几种最先进的全监督方法。
Apr, 2020
本文提出了一种适用于匹配视频中对应点的特征嵌入的自监督学习方法,其中使用自然的时空一致性训练指针模型,并通过引入信息瓶颈和循环模型等方式来解决跟踪器漂移等挑战,最终取得了在视频分割和关键点跟踪上的最佳效果。
May, 2019
本文提出了一种基于时空动态模型的无监督光流估计方法,使用视图合成的自我监督学习来提供可靠的运动先验信息,利用邻帧的运动先验来改善光流估计中遮挡区域的监督,采用自我监督知识蒸馏来让模型理解物体在连续动态环境中的运动模式,实验证明该方法在无监督光流估计中取得了最先进的性能并具有记忆开销优势。
Apr, 2023
本文提出了一种统一的模型形式和模型,可以用于光流、矫正立体匹配和从定位图像中估计无校准立体深度。该模型使用 Transformer 中的交叉注意力机制实现判别特征表示,并在允许跨任务转移的同时,在多个数据集上实现或超过现有最新方法的性能。
Nov, 2022
本文提出了一种同时估计光流和时间连续的语义分割的方法,将这两个问题领域紧密相连并相互利用,从而使场景理解的重要性和需求与自主系统的积极发展不断增加,并对 KITTI 基准测试中的性能进行了演示。
Jul, 2016
通过无监督学习框架,我们提出了一种将运动立体相机观察到的 3D 场景流分解为静止场景元素和动态物体运动的方法。我们利用三个协同工作的网络来预测立体匹配、相机运动和残留流,并明确估计基于残留流和场景深度的动态物体的 3D 场景流。在 KITTI 数据集上的实验表明,我们的方法在光流和视觉里程计任务上优于其他现有算法。
Sep, 2019
本文提出的单目场景流(Scene Flow)估计方法基于一个卷积神经网络(CNN),通过充分考虑光流代价体积,成功估算出深度和三维运动。我们采用了自监督学习方法,利用三维损失函数和遮挡推理来提高估计精度。实验结果表明,该方法在单目场景流估计领域取得了最佳性能,同时在光流和单目深度估计子任务上也获得了很好的结果。
Apr, 2020
通过深度神经网络强大的目标理解,同时处理精确几何建模的一致轨迹估计,提出了一种基于联合时空优化的立体 3D 对象跟踪方法,在 KITTI 跟踪数据集上取得显著优于先前方法的定量评估结果,并在多个类别和大型数据集(KITTI 原始和 Argoverse 跟踪)上进行了广泛的结果报告以供未来基准测试。
Apr, 2020
本研究提出了一种基于深度学习和几何图像匹配的光学流估计方法 MatchFlow,通过先使用几何图像匹配(GIM)作为预训练任务,再进行光流估计,从而提高了图像特征的匹配性能,实验结果表明该模型性能优异,相较于已发表的方法,拥有最优的表现。
Mar, 2023
本篇论文介绍了一种学习匹配函数的方法,该方法能自动发现允许视觉外观变化的空间,并学习相关特征在不同相对位置和尺度上的匹配分数的重要性。该算法已在 KITTI、Sintel 和 TimeLapse 数据集上实现了有希望的结果。
Feb, 2015