- 神经隐式特征场的自监督学习用于相机姿态细化
通过在同一度量空间中嵌入图像特征提取器和体积特征场,通过对比框架对齐体积特征与图像特征并利用学习的表面信息对后者进行正则化,本文提出了一种联合学习场景表示、体积渲染和特征场设计的方法,用于视觉定位,并在真实场景中验证了该方法的有效性。
- 特征分割以减少重叠度的优化新视角合成
利用特征喷溅(FeatSplat)将三维高斯场的颜色信息编码到每个高斯特征向量中,进而通过小型 MLP 解码融合的特征向量以生成 RGB 像素值,且通过叠加相机嵌入来条件解码以包含视角信息。实验证明,该方法显著提高了对训练视图之外远离的低重 - TIGER:基于文本指导的三维高斯检索与连贯编辑
本文提出了名为 TIGER 的一种系统方法,用于一致的文本指导下的 3D 高斯检索和编辑,通过采用自底向上的语言聚合策略来生成支持开放词汇检索的更密集的语言嵌入的 3D 高斯场景,并通过聚合 2D 图像编辑扩散模型和多视图扩散模型的一致性得 - 基于字典分解表示的神经特征渲染的高保真密集视觉 SLAM 系统
引入了一种高保真的神经隐式密集视觉同时定位与建图(SLAM)系统,名为 DF-SLAM。我们利用字典因子对场景进行表示,将场景的几何和外观信息编码为基础和系数因子的组合。与直接将场景信息编码为特征的神经隐式 SLAM 方法相比,我们的方法具 - 统一场景表示和重建用于三维大型语言模型
本研究通过引入 Uni3DR^2 提取 3D 几何和语义感知表示特征的统一场景表示和重建框架,证明了该框架对于大型语言模型在 3D 场景中的重要性,并在多个实验中取得了令人信服的结果。
- 统一场景表示与手眼标定的三维基础模型
利用 3D 基础模型,本研究提出了一种名为 JCR 的方法,可以在机器人系统中同时构建环境表示和相机标定,无需专用标定标志,并且是使用低成本的 RGB 相机进行的。
- CVPR预训练特征在摄像机姿态细化中的非常有效性
将预训练特征与粒子滤波器和可渲染场景表示相结合,实现姿态细化的简单方法达到了最先进的结果,证明不需要特定的训练即可构建姿态细化器。
- Oblique-MERF: 对倾斜摄影进行重访和改进的 MERF
本文提出了一种名为 Oblique-MERF 的方法,在处理倾斜航拍照片重建 3D 场景时,通过引入一个创新的自适应占用平面和一个平滑正则化项来解决独特的数据特征,从而超越当前最先进的实时方法,降低 VRAM 使用量约 40%并在大多数视点 - CVPR层叠场景扩散移动任何物体
通过对不同空间布局的场景渲染进行联合去噪,SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离,从而生成支持移动、调整大小、克隆以及逐层外观编辑(包括目标重塑和替换)等广泛空间编辑操作的场景 - INPC:用于辐射场渲染的隐式神经点云
我们介绍了一种新的方法,用于无界现实世界场景的重建和新视角合成。与以前使用体积场、基于网格的模型或离散点云代理的方法不同,我们提出了一种混合场景表示,它在连续的八叉树概率场和多分辨率哈希网格中隐式编码点云。通过这样做,我们结合了两个世界的优 - 场景脚本:用自回归结构化语言模型重建场景
我们通过使用自回归的基于标记的方法直接生成完整场景模型的有序语言命令序列,引入了 SceneScript。我们的场景表示方法受到转换器和 LLMs 的最新成功的启发,并与常见的以网格、体素网格、点云或辐射场描述场景的传统方法不同。我们的方法 - 紧凑型三维高斯喷射在密集视觉定位和建图中的应用
提出了一种紧凑的 3D 高斯着色 SLAM 系统,通过减少冗余椭球体的数量和参数大小来降低内存和存储成本,并实现了快速训练和呈现速度。通过滑动窗口的屏蔽策略减少冗余的椭球体,然后观察到大多数 3D 高斯椭球体的协方差矩阵(几何)非常相似,从 - 新视觉时代中的 3D 高斯:综述
3D 高斯散射(3D-GS)是计算机图形学领域的重要进展,提供了明确的场景表示和新颖的视图合成技术,而无需依赖神经网络(如神经辐射场(NeRF))。本文对 3D 高斯散射的相关论文进行了全面调研,将调查结果按照特征和应用进行分类,介绍了 3 - FMGS: 嵌入式基础模型的整体三维高斯重叠投射用于全景三维场景理解
通过将视觉语言嵌入模型与三维高斯喷洒算法相结合,本研究提出了一种高效的三维视觉语言模型重建方法,通过渲染从三维模型生成的特征映射,实现了高质量的渲染和快速训练,并引入了像素对齐损失来保证渲染的语义一致性,取得了显著的多视图语义一致性,为增强 - 通过自组织高斯网格实现紧凑的三维场景表示
我们提出了一种紧凑的场景表示方法,将三维高斯扩散模型的参数组织成具有局部均匀性的二维网格,从而实现了存储需求的大幅度降低,同时在渲染过程中不影响视觉质量。
- 高斯 - SLAM:基于高斯投射的高清稠密 SLAM
我们提出了一种新的稠密同时定位与建图(SLAM)方法,该方法使用高斯斑点作为场景表示。该新的表示方法能够实时重建和真实渲染真实世界和合成场景,并通过提出新的策略来扩展高斯斑点的应用,使其从多视角离线场景扩展到顺序单色 RGBD 输入数据的设 - 嵌入式语言的三维高斯函数用于开放词汇场景理解
通过使用一种新颖的场景表示方法 —— 嵌入语言的 3D 高斯模型,本研究在 3D 空间中实现了开放词汇查询任务,取得了最佳的视觉质量和语言查询准确性,并且保持在单个台式 GPU 上的实时渲染帧速率。
- Im4D: 动态场景的高保真实时新视角合成
本文介绍了一种名为 Im4D 的混合场景表示方法,在动态视图合成方面表现出了先进的性能和高效的训练能力。
- 拖动视图:通过无表征图像生成泛化的新视图
通过 DragView 框架,可以生成具有新视角的场景,无需 2D 先验模型或摄像机姿态估计,实现了与其他无姿态要求的场景表示网络相比优秀的视图合成质量,并能够生成具有灵活摄像机轨迹的逼真新视角。
- D$^3$Fields:动态三维描述场用于零样本泛化机器人操作
介绍了 D$^3$Fields 动态三维描述符场,它能够捕捉三维环境的动态性,并对语义特征和实例掩膜进行编码。在零样本机器人操作任务中,通过对不同背景、风格和实例的多视图二维观测进行特征插值,生成的融合描述符场允许灵活的目标规范。通过在现实