ICLRApr, 2024

语义流:从单目视频中学习动态场景的语义领域

TL;DR本文中,我们提出了 Semantic Flow,一种从单 ocular videos 中学习动态场景的神经语义表示。与以往的 NeRF 方法不同,它通过包含丰富的三维运动信息的连续流来学习语义。我们考虑从二维视频帧中提取三维流特征时视线方向上的二维到三维模糊问题,将体积密度视为描述流特征对帧语义贡献的不透明度先验。我们首先学习流网络预测动态场景中的流,并提出流特征聚合模块从视频帧中提取流特征。然后,我们提出流注意模块从流特征中提取运动信息,随后是语义网络输出流的语义 logits。我们将 logits 与视线方向上的体积密度相结合,以在视频帧上监督流特征与语义标签的学习。实验结果表明,我们的模型能够学习多个动态场景,并支持一系列新任务,如实例级场景编辑、语义补全、动态场景跟踪和对新场景的语义适应。可在此 https URL 获取代码。