本文提出了一种基于生成的深度图的方法,通过引入像素的稠密性来实现直接从 2D 图像学习 3D 场景流,以及利用统计方法和视差一致性损失来解决噪声点的问题,从而达到了更加有效的自监督学习 3D 场景流的目的。实验证明,这种方法优于合成数据集和激光雷达点云学习的方法,在场景流估计任务中表现出更好的稳定性和准确度。
我们研究了从真实大规模原始点云序列中自监督估计 3D 场景流的问题,该问题对于轨迹预测或实例分割等各种任务至关重要。我们提出了一种新颖的聚类方法,允许组合重叠的软聚类和非重叠的刚性聚类表示。我们的方法在多个具有 LiDAR 点云的数据集上进行了评估,证明了优于自监督基线的卓越性能,达到了最新的技术水平。特别是在解决含有行人、骑自行车者和其他易受伤害道路用户的复杂动态场景中,我们的方法表现出色。我们的代码将公开提供。