Jun, 2023

构建物理场景的视觉基础模型

TL;DR通过图像预测作为训练标准,我们探索了学习物理场景通用视觉表示的第一步。我们定义了 “物理场景”,发现即使不同的代理可能维护同一场景的不同表示,可以推断出的基本物理场景是唯一的。同时,我们显示了 NeRF 不能代表物理场景,因为它们缺乏外推机制。然而,这种机制在理论上可以由扩散模型提供。为了通过实验证明这个假设,我们可以将 NeRF 和 Diffusion Models 结合使用,这个过程被我们称为 NeRF Diffusion,用于表示物理场景的无监督。我们的分析仅限于视觉数据,没有额外的基于独立感觉模态的基础机制提供。