large-scale text-to-image models enable a wide range of image editing
techniques, using text prompts or even spatial controls. However, applying
these editing methods to multi-view images depicting a single scene leads to
3D-inconsistent results. In this work, we focus on spatial contr
本文提出通过蒸馏出自监督的 2D 图像特征提取器的知识,优化一种针对 NeRF 的 3D 特征场,从而实现语义场景分解以及针对局部区域的查询式编辑,从而实现结构编辑的目的。通过实验证明,3D 特征场可以将最近在 2D 视觉和语言基础模型中取得的进展应用于 3D 场景表示,从而实现令人信服的 3D 分割和选择性编辑。