Jun, 2024

LiveScene: 语言嵌入交互式辐射场用于物理场景渲染和控制

TL;DR通过将单一对象级别的交互式物体重建扩展到复杂场景级别,本研究旨在推进物理世界交互式场景重建的进展。为了准确模拟复杂场景中多个物体的交互运动,我们提出了LiveScene,即第一个嵌入场景级语言交互式神经辐射场,它能够高效重建和控制复杂场景中的多个交互式物体。通过将交互场景分解为多个局部可变形场,分别重建各个交互式对象,实现了对复杂场景中多个交互式物体的首个准确且独立的控制。此外,我们引入了一种交互感知的语言嵌入方法,通过生成不同交互状态下的语言嵌入来定位各个交互式对象,实现使用自然语言对交互式物体的任意控制。最后,我们利用构建的OminiSim和InterReal数据集对LiveScene进行评估,并在各种模拟和真实世界的复杂场景上展示了出色的新视角合成和语言注释性能,分别在CoNeRF Synthetic、OminiSim #chanllenging和InterReal #chanllenging数据集上的PSNR指标上超过现有方法9.89、1.30和1.99,以及在OminiSim数据集上的mIOU指标上超过65.12。