- 细粒度图像到 LiDAR 对比蒸馏与视觉基础模型
通过利用 VFMs 的像素级语义增强三维表示学习,采用 von Mises-Fisher 分布对特征空间进行结构化,以解决对手法的挑战并在下游任务中始终优于现有的图像到 LiDAR 对比蒸馏方法。
- NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场
神经场在计算机视觉和机器人技术中表现出色,能够理解三维视觉世界,例如推断语义、几何和动态。我们使用神经场进行自监督预训练,尤其是使用遮盖的自动编码器从 RGB 图像生成有效的三维表示,然后将标准的三维视觉 Transformer 应用于 N - 文本到 3D 形状生成
近年来,文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法,并对需要的监督数据类型进行了系统分类。最后,讨论了现有方法的局限性,并勾画了未来工作的有希望的方向。
- CVPRDVMNet: 计算超越假设的未知物体的相对位姿
通过深度体素匹配网络,本研究提出一种无需姿态假设的方法,在计算成本较低的情况下为新对象提供更准确的相对姿态估计。
- 基于语义感知的神经辐射场用于视觉场景理解:综述
本综述全面研究了语义感知的神经辐射场(NeRFs)在视觉场景理解中的作用,覆盖了 250 多篇学术论文的分析。它探讨了 NeRFs 在场景中熟练推断静态和动态物体的三维表示的能力,并介绍了其在生成高质量新视点、补全场景细节(修复)、进行全面 - StopThePop: 基于排序的高斯飞溅 用于保持视图一致性的实时渲染
通过分层光栅化方法提高高斯喷洒的渲染效率,消除了弹出伪影和视图不一致问题,并在测试图像中获得相当的定量结果,在新视角综合运动中提供一致性。通过同时减少高斯函数数量来提高性能,并减少了一半的内存需求,使得我们的方法比原始的高斯喷洒方法快 1. - AAAICF-NeRF:无需相机参数的逐步学习神经辐射场
通过增量式运动结构 (SfM) 启发的相机参数自由神经辐射场 (CF-NeRF) 模型,逐渐重建三维表示并恢复相机参数,能够鲁棒处理相机旋转场景,并在不提供先验信息和约束的情况下实现最先进的结果。
- UpFusion:基于未姿态稀疏视角观测的新视角扩散
UpFusion 是一个系统,可以在没有对应姿态信息的情况下,根据稀疏的参考图像执行新视角合成和推断对象的三维表示。
- 3D-QAE:全量子三维点云的完全自编码
该论文介绍了首个用于三维点云的量子自动编码器,通过在模拟的基于门的量子硬件上进行实验,证明了该方法优于简单的经典基准模型,为三维计算机视觉领域开辟了新的研究方向。
- ConceptGraphs: 开放词汇三维场景图用于感知和规划
为了使机器人能够执行各种任务,本研究提出了一种名为 ConceptGraphs 的基于图结构的 3D 场景表示方法,通过将 2D 基本模型的输出与多视图关联相结合,不需要收集大型 3D 数据集或微调模型即可实现对新的语义类进行泛化推理,并通 - 学习具有混合三维表示的分离化身
DELTA 采用混合的 3D 表示方法对人体进行建模,通过将网格与体积渲染相结合,实现了人体、服装和头发的解耦合,有效实现了重建、试穿和发型转换等应用。
- NeRFs: 最佳三维表示的探索
Neural Radiance Fields (NeRFs) are a new representation of 3D scenes for view synthesis and image-based rendering, widel - 3D 点云强化学习效果研究
该研究通过对比 2D 与 3D 表现,研究了 3D 神经网络在可视化强化学习任务中的效能,特别关注了基于 3D 点云的设计选择,研究表明在涉及到 agent-object/object-object 关系编码时,3D 点云比 2D 图像更有 - VoxDet: 针对新样本实例检测的体素学习
使用 VoxDet 这个基于 3D 几何感知的框架,通过模板体素聚合模块和查询体素匹配模块,将多视角 2D 图像转化为 3D 体素,从而实现对姿势变化和遮挡的有效识别,取得了 20% 较高的召回率和较快的速度。
- CLR-GAM:基于引导增强和特征映射的对比点云学习
该文章介绍了一种基于对比学习的点云数据 3D 表征自监督学习框架,该框架具有引导的增强策略和引导的特征映射,可以有效地进行动态探索和结构特征关联,并在不同下游任务上实现了最先进的性能,包括三维点云分类、少样本学习和目标部分分割。
- 通过图像到点蒙版自编码器从二维预训练模型中学习三维表示
利用自监督的预训练,我们通过 Image-to-Point Masked Autoencoders(I2P-MAE)从 2D 预训练模型中获取优秀的 3D 表示,其中我们引入了两种图像到点的学习方案:一种是引入 2D 引导遮罩策略,另一种是 - CVPR野外步态识别:基于稠密三维表示和基准测试
本文旨在探讨用于野外环境中行走行人的 3D 浓密表征的步态识别,并提出了一种基于 3D Skinned 多人线性(SMPL)模型的新框架 ——SMPLGait,并建立了首个大规模的基于 3D 表征的步态识别数据集 ——Gait3D,以此与现 - ICCVBARF: 捆绑调整神经辐射场
本文提出了 Bundle-Adjusting Neural Radiance Fields (BARF) 用于训练 NeRF 从不完美(甚至未知)相机姿态学习神经 3D 表示,并展示了其在视图合成和定位视频序列方面的应用。
- 从未见过的视角识别视频中的行为
本文提出了基于三维表示的方法以及引入了一层新的几何卷积层,从而使当前卷积神经网络模型可以学习具有视角不变性的表示,且对于未见过的视角也可以进行识别。我们还提出了一个新的具有挑战性的未见视角识别数据集,并展示了该方法学习视角不变表示的能力。
- ICLR端到端自我空间记忆
提出使用无参数模块 Egospheric Spatial Memory (ESM) 来通过在自主代理周围的自我球内部编码记忆以实现表达三维表示来改善空间记忆的性能,并可以通过模仿或强化学习进行端对端训练,在训练效率和最后的控制方法表现方面明