OpenObj:具有细粒度理解的开放词汇对象级神经辐射场
该研究关注解决从开放词汇中将神经辐射场(NeRF)分解为对象的挑战,这对于三维重建和视图合成中的对象操作是至关重要的。我们提出了 Open-NeRF,利用大规模、现成的分割模型,如 Segment Anything Model(SAM),并引入了一种集成和蒸馏范式,通过层次嵌入来既实现开放词汇查询的灵活性,又保持三维分割的准确性。Open-NeRF 首先利用大规模的基础模型根据不同视角生成分层的二维掩模提案,然后通过跟踪方法对这些提案进行对齐,并在三维空间中进行集成,最后蒸馏为三维场。该过程确保了不同视角下的对象一致识别和细粒度,即使在涉及遮挡和模糊特征的挑战性场景中也是如此。实验结果表明,Open-NeRF 在开放词汇的场景中胜过了 LERF 和 FFD 等最先进的方法。Open-NeRF 为 NeRF 分解提供了一个有前途的解决方案,通过开放词汇查询引导,能够在开放世界的三维场景中实现新的机器人和视觉语言交互应用。
Oct, 2023
利用 OV-NeRF 模型,通过单视图和跨视图策略,在 3D 场景中提高语义感知能力,通过 Region Semantic Ranking(RSR)和 Cross-view Self-enhancement(CSE)方法解决了噪声和不一致语义的问题,实验证明其优于当前最先进方法并表现出稳定的性能。
Feb, 2024
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从 2D 特征中提取出 3D 分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。
May, 2023
本研究提出了 Obj-NeRF,一种综合管道,通过使用一个单一的提示从多视图图像中恢复特定对象的 3D 几何形状。该方法结合了 Segment Anything Model(SAM)的 2D 分割能力和 NeRF 的 3D 重建能力,并应用了几种有效技术。此外,研究还构建了一个包含多样化对象的大规模对象级 NeRF 数据集,可在各种下游任务中发挥作用。为了证明我们的方法的实用性,我们还将 Obj-NeRF 应用于包括对象去除、旋转、替换和重新上色在内的各种应用。
Nov, 2023
OpenNeRF 是一种在视觉 - 语言模型中自然地进行操作的方法,通过使用像素级的 VLM 特征,可以在不需要额外的 DINO 规范化的情况下实现更简化的架构,并在 3D 点云分割上优于近期的开放词汇方法,如 LERF 和 OpenScene,至少优势为 + 4.9 mIoU。
Apr, 2024
我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度,并通过对几种最先进的开放词汇物体检测器的评估,发现大多数现有方法难以准确捕捉和区分物体的细节,并总结了当前方法的局限性和有望克服这些缺点的研究方向。
Nov, 2023
提出一种基于神经辐射场和基于对象的神经散射函数的方法,能够在不重新训练的情况下,对静态及动态场景进行光线追踪模拟,拥有在新光照和新物品排列情况下泛化能力的物理准确的多物体场景组成渲染技术。
Dec, 2020
本研究提出了 LaTeRF 方法,通过引入 “对象性” 概率,扩展 NeRF 公式,结合自然语言描述、点标签等信息从场景中提取出感兴趣的物体,并结合预训练的 CLIP 模型和可微分对象渲染器来修复物体的遮挡部分。实验结果表明该方法在合成和真实数据集上均能实现高保真物体提取。
Jul, 2022
本研究提出了一种新型的神经场景渲染系统,在聚集和现实世界场景中学习对象组合的神经辐射场,具有编辑能力和高效处理能力,并通过新颖的双通道体系结构设计,得以在场景几何和外观以及独立于对象的可学习激活代码条件下训练各个独立目标。通过实验证明,该系统不仅在静态场景新视点综合方面具备优异性能,而且在对象级别编辑方面也能产生逼真的渲染效果。
Sep, 2021