- D$^3$Fields:动态三维描述场用于零样本泛化机器人操作
介绍了 D$^3$Fields 动态三维描述符场,它能够捕捉三维环境的动态性,并对语义特征和实例掩膜进行编码。在零样本机器人操作任务中,通过对不同背景、风格和实例的多视图二维观测进行特征插值,生成的融合描述符场允许灵活的目标规范。通过在现实 - 物体堆叠操作的动态分辨率模型学习
本研究提出一种采用动态分辨率粒子表示方法,利用图神经网络(GNNs)学习统一的动力学模型,在不同的抽象级别上动态学习和适应表示,以实现效率和效果的最佳平衡,经过模拟和实际场景的综合评估,我们证明了该方法在搜集、分类、重新分配各种实例制成的颗 - CVPR神经场景编年史
本文旨在从互联网照片中重建一个可呈现照片逼真效果、拥有独立控制视角、照明和时间的三维模型。我们使用一种新的场景表示,并提出了一种新的时态步函数编码方法,可以将离散场景级内容变化建模为时间上的分段常函数,从而实现了对视角、时间和照明的独立控制 - 通过同步局部未优化的 NeRF 获取场景和位姿估计
本文提出了一种名为 LU-NeRF 的方法,通过利用放松姿态配置的放松姿态配置来同时估计相机姿态和神经辐射场,通过局部到全局的优化和姿态同步等步骤, 在一般的 SE(3)姿态设置下,无需对姿态先验进行强制约束,相比先前无姿态配置进行的 Ne - 利用鼹鼠学习:可转移的潜在空间表示,实现无需重建的导航
本研究提出通过盲辅助代理训练学习场景的可操作表示,用于导航决策,并且经实验证明该学习表示方式在处理复杂环境及从模拟到真实场景的转换时具有很好的鲁棒性。
- FMapping:用于实时稠密 RGB SLAM 的分解高效神经场映射
本文引入了 FMapping,一种高效的神经场映射框架,旨在实现连续、实时、稠密的 RGB SLAM 点云地图的估算,通过在理论上对 SLAM 系统进行分解,提出了一种有效的分解方案,引入滑动窗口策略和因式分解神经场的方法降低地图构建的不确 - CVPR基于补丁的 3D 自然场景从单个示例生成
提出一种基于 3D Patch 的生成模型,用于生成高质量通用自然场景,解决了训练数据量小、场景特征变化等问题。
- CVPR利用互联网不完整的 3D 模型的视觉定位
本文探讨了互联网上获取的 3D 模型对于视觉定位的不精确性以及如何处理构建一个更加准确的场景表示,研究人员创建了一个基准测试,以评估基于多个 3D 模型的视觉本地化问题的准确性。
- 基于混合二维语义场景生成的 LiDAR 三维物体检测
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
- ECCV无地图视觉重定位:基于单张图像的度量位姿
提出了一种无需建立场景特定三维地图的场景单图参考图像重定位技术,并通过对世界范围内的小型艺术品,如雕塑、壁画和喷泉的构建新数据集,测试了现有算法的可行性及基准结果,并发现无地图重定位仍需新型创新技术的挑战。
- 开放式词汇可查询实景场景表示用于真实世界规划
本文提出了 NLMap 框架,通过先建立可查询的场景表征,为 LLM 规划器整合上下文信息,使其可以查询场景中的对象并产生上下文条件计划,从而使机器人能够实现无固定对象列表和可执行选择的真实机器人操作。
- 基于 Transformer 的场景表示学习增强强化学习用于自动驾驶决策
本文提出了一种名为 Scene-Rep Transformer 的决策算法,使用改进后的场景表示编码和连续预测潜在蒸馏来提高强化学习决策能力,通过在 5 种具有挑战性的模拟城市场景中验证,演示了数据效率和成功率,安全性和效率等方面的实质性改 - ECCVBlobGAN:空间分离式场景表示
该研究提出了一种基于场景的生成模型,使用中层次表示模型,模拟空间的深度有序特征 Blob,并将其应用于生成对抗网络中产生可行场景的实例中
- CVPRNeurMiPs: 神经平面专家混合模型用于视角合成
本研究提出了一种基于平面的场景表示方法 —— 神经平面专家混合模型(NeurMiPs),它利用一堆局部平面专家来表示 3D 空间的几何和外观,并且结合了神经辐射场渲染和显式网格渲染的优势,用于合成新视角的实验证明了它比其他三维表示方法在速度 - CVPRMovies2Scenes: 使用电影元数据学习场景表征
使用对电影的元数据进行对比学习,提出了一种学习通用场景表征的方法,并在多个基准数据集上验证了该方法的有效性,尤其是在 LVU 数据集中,平均改进了 7.9% 的分类任务和 9.7% 的回归任务。此外,还使用一个新收集的电影数据集,将该方法在 - ICCV连续神经映射:从序列观测中学习隐式场景表示
本文介绍了一种基于神经网络的连续场景表征学习方法,通过经验回放解决连续场景表征学习中遗忘和准确性的平衡问题。实验证明本方法能够连续地学习和表示场景几何特征。
- CVPRDeepSurfels: 在线学习外观融合
介绍了一种新型的场景表示 ——DeepSurfels,它能够结合几何和外观信息,并且可以很好地更新外观信息并且易于与机器学习方法相结合。同时,我们还提出了一种端对端的可训练在线外观融合管线,它可以将 RGB 图像的信息融合到所提出的场景表示 - 使用 3D Box Priors 进行多平面程序归纳
Box Program Induction 是一种使用神经网络来推断 2D 平面的多重重复结构、3D 平面的位置和方向、以及摄影机参数的综合、结构化场景表示方式,从而实现三维感知的交互式图像编辑操作的方法。
- NodeSLAM: 多视角形状重建的神经物体描述符
通过多类学习对象描述符和新颖的渲染引擎,可以从一个或多个 RGB-D 图像中进行精确和鲁棒的 3D 对象重建,从而实现了多种应用,同时具备联合优化对象姿态和形状以及相机轨迹的能力。
- 通过反向图形学进行 3D 感知场景操作
本文提出了一种名为 3D-SDN 的深度生成模型,该模型可以生成可解释的、富有表现力的、分离的场景表示,能够支持 3D 感知场景操作,并证明该模型比其 2D 版本表现更优秀。