A long-standing goal in scene understanding is to obtain interpretable and
editable representations that can be directly constructed from a raw monocular
rgb-d video, without requiring specialized hardware setup
本文提出了一种从 2D 视觉观察中学习动态 3D 场景模型的方法,结合神经放射场、时间对比学习和自动编码框架,可以学习到视点不变的 3D 感知场景表示,进而实现包括刚体和流体在内的具有挑战性的操作任务的视觉运动控制和未来预测,并支持摄影机视点外训练分布的目标规定,此外,还对不同系统设计进行了详细的改变研究和学习的表示的定性分析。