构建物理场景的视觉基础模型

Jun, 2023

Towards Visual Foundational Models of Physical Scenes

Chethan Parameshwara, Alessandro Achille, Matthew Trager, Xiaolong Li, Jiawei Mo...

TL;DR通过图像预测作为训练标准，我们探索了学习物理场景通用视觉表示的第一步。我们定义了 “物理场景”，发现即使不同的代理可能维护同一场景的不同表示，可以推断出的基本物理场景是唯一的。同时，我们显示了 NeRF 不能代表物理场景，因为它们缺乏外推机制。然而，这种机制在理论上可以由扩散模型提供。为了通过实验证明这个假设，我们可以将 NeRF 和 Diffusion Models 结合使用，这个过程被我们称为 NeRF Diffusion，用于表示物理场景的无监督。我们的分析仅限于视觉数据，没有额外的基于独立感觉模态的基础机制提供。

Abstract

We describe a first step towards learning general-purpose visual representations of physical scenes using only image prediction as a training criterion. To do so, we first define "physical scene" and show that, even though different agents may maintain different representations of the

general-purpose visual representations physical scenes nerfs diffusion models unsupervised representations

发现论文，激发创造

NeRF 融合：基于 NeRF 的大规模场景表示

本文介绍了一种名为 NeRFuser 的架构，它可以在不需要访问大量用于生成它们的图像集的情况下，对 NeRF（神经辐射场）进行注册和混合。NeRFuser 使用 re-rendering 技术进行注册，提出了基于采样的反距离加权进行混合，经实验证明具有鲁棒性。

May, 2023

用于视觉运动控制的三维神经场景表示

本文提出了一种从 2D 视觉观察中学习动态 3D 场景模型的方法，结合神经放射场、时间对比学习和自动编码框架，可以学习到视点不变的 3D 感知场景表示，进而实现包括刚体和流体在内的具有挑战性的操作任务的视觉运动控制和未来预测，并支持摄影机视点外训练分布的目标规定，此外，还对不同系统设计进行了详细的改变研究和学习的表示的定性分析。

Jul, 2021

专注特定物体的 NeRF

通过利用场景语义先验，加快训练速度和提高渲染效果，本文改进了 NeRF-based 模型，在特定目标上进行快速训练，并且对所有 NeRF-based 模型都适用。此外，通过稀疏采样负射线样本并研究弱监督方法，进一步加速训练并保持渲染质量。最后，通过扩展像素语义和颜色渲染公式，提出了一种新的场景编辑技术，以实现特定语义目标的独特显示或在渲染中进行掩盖。同时，通过结合形态学运算和聚类，设计了自监督循环来解决场景中无监督区域的不正确推断问题。

Aug, 2023

为神经辐射场推理学习扩散先验

本文提出采用扩散模型生成编码在规则网格上的神经辐射场，并展示了该模型在实现逼真 NeRFs 的同时，能够根据观察结果进行条件生成。

Apr, 2023

AutoNeRF: 用自主代理训练隐式场景表示

该论文介绍了 AutoNeRF，一种使用自主实体代理收集数据以训练 NeRF 的方法，研究比较了不同的探索策略，经验证明可以使用主动收集的数据来训练 NeRF，并且可以用于下游机器人任务，以及模块化训练探索模型显著优于经典基线。

Apr, 2023

SNeRF：用于 3D 场景的风格化神经隐式表示

本研究提出了一种基于神经辐射场的三维场景风格化方法，采用新的训练方法，交替进行 3D 场景和风格化优化步骤，从而应用更加表现力的图像风格转移方法，生成高质量的具有交叉视角一致性的新视角图片。

Jul, 2022

3D-IntPhys：挑战场景下更加通用的三维视觉直观物理学

本论文提出了一种通过学习多视角 RGB 图像预测场景未来发展的 3D 模型的框架，并使用条件神经辐射场视觉前端和 3D 基点动态预测后端来捕获底层环境的结构以及强关系和结构归纳偏差，相较于先前的方法，我们的模型对准确的点估计和跟踪不再具有依赖性，可以应对较复杂的场景，并在长时间预测方面表现较好。

Apr, 2023

学习物理模型的视觉定位

该论文提出了一种神经模型，同时基于物理学原理和视觉先验进行推理和预测，通过对粒子的估计预测物理参数，即视觉基础，并在刚体、可变形材料和流体的复杂环境中证明了它的有效性，允许模型在几次观察内推断出物理特性，从而快速适应未见过的场景并进行准确的未来预测。

Apr, 2020

ReconFusion：基于扩散先验的三维重建

使用少量照片重建现实场景的方法，通过在合成和多视图数据集上训练的扩散先验来对新视角的合成进行规范化，从而在超约束区域综合出逼真的几何和纹理，同时保持观察区域的外观。与以前的少视图 NeRF 重建方法相比，我们在各种真实世界数据集上进行了广泛评估，包括正向和 360 度场景，并展示了显著的性能改进。

Dec, 2023

基于神经渲染的无监督连续语义适应

本文研究了语义分割的连续多场景自适应问题，提出了基于 Semantic-NeRF 网络的解决方案，通过将分割模型的预测结果融合，使用视点一致的渲染语义标签来适应模型。我们在 ScanNet 数据集上测试，取得了比基线和最先进的无监督域自适应方法更好的性能。

Nov, 2022