- 自监督预训练和微调用于单目深度和视觉里程计
我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法,分为两个步骤:第一步是使用跨视角补全目标(CroCo)进行通用预训练以学习 3D 几何,然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变 - GeoGen:通过带符号距离函数的几何感知生成建模
我们介绍了一种新的生成方法,通过单视图集合合成三维几何和图像。使用神经辐射场的体积渲染预测是目前现有方法的主要限制之一。为了解决这个问题,我们提出了一种基于有向面积函数的三维生成模型 GeoGen,通过学习可改变的转换并将渲染深度图与 SD - CLAY:一种可控的用于创造高质量 3D 资源的大规模生成模型
通过使用 CLAY,我们可以轻松地将人类的想象力转化为复杂的 3D 数字结构,它支持文本、图片和各种 3D 感知输入,并使用多层次生成模型和物理渲染纹理生成模型,以实现从概念设计到细节化的 3D 资源创建。
- 神经场中的物体注册
本文介绍了神经场在机器人应用中对 3D 几何和外观的连续场景表示,重点探讨了神经场在机器人领域中用于对象 6 自由度注册的方法和应用,展示了利用场景和对象神经场模型确定已知对象在场景中的 6 自由度姿态的情景,并展示了如何在不完美模型的场景 - CVPR几何感知深度完整性的三视角视图分解
通过 Tri-Perspective view Decomposition (TPVD) 框架,该研究旨在解决自动驾驶中的深度完成任务,并且能够更准确地重建稀疏和嘈杂深度测量所对应的场景的精确 3D 几何形状。通过 TPVD 的分解和合并方 - 深度感知全景分割
基于 RGB 图像和深度图像的全景分割的新方法;通过使用所观察场景的 3D 几何信息,减少错误合并为一个事物实例的对象数量,提高全景质量。
- MonoOcc: 单目语义占据预测深入研究
提出了一种名为 MonoOcc 的方法,通过在框架的浅层引入辅助语义损失作为监督和利用图像条件下的交叉注意力模块来改进单目占据预测框架,并利用较低的硬件成本将时间信息和更丰富的知识从更大的图像主干传输到单目语义占据预测框架,从而取得了基于相 - 单目图像的几何估计的自适应表面法线约束
我们提出了一种新颖的方法,可以从图像中学习深度和表面法线等几何特征,同时结合几何背景。通过动态确定可靠的局部几何特征并评估其几何背景的有效性,我们建立了一个表面法线约束,从而实现了准确捕捉图像的 3D 几何信息。通过几何背景的整合,我们的方 - 用于文本到 3D 生成的检索增强得分蒸馏
通过检索辅助的方法,RetDream 解决了文本到 3D 生成中存在的 3D 几何不一致问题,并实现了几何一致性和生成场景的忠实度的显著改进。
- 你所看到的就是你 GAN: 用于高保真 3D GAN 中几何渲染的每个像素
本研究提出了一种扩展神经体素渲染至高分辨率 2D 图像的技术,使得生成对抗网络(GAN)能够以前所未有的细节分辨率合成高分辨率的三维几何物体,并且在维持图像质量的同时保持严格的视角一致性,从而树立了无监督学习 3D GAN 中的三维形状的新 - 图像雕塑:精确的三维几何控制下的物体编辑
Image Sculpting 是一个结合 3D 几何和图形学工具来编辑 2D 图像的新框架,将 2D 对象转化为 3D 并支持精确、可量化和物理上可行的编辑选项,是将生成模型的创造自由与图形管线的精准性结合的初步尝试。
- DeepDR: 深度结构感知的 RGB-D 修复用于减弱现实
Diminished reality 通过使用 inpainting 技术生成并纠正场景的图像和几何结构,DeepDR 框架在实时帧速率下运行,具有最小的时间伪影,并在复杂背景下重建锐利和一致的边界。
- Obj-NeRF: 从多视图图像中提取物体 NeRF
本研究提出了 Obj-NeRF,一种综合管道,通过使用一个单一的提示从多视图图像中恢复特定对象的 3D 几何形状。该方法结合了 Segment Anything Model(SAM)的 2D 分割能力和 NeRF 的 3D 重建能力,并应用 - 通过风格调制的生成对抗网络实现多样化的形状补全
通过引入多样性惩罚和多尺度鉴别器,我们提出了一种新颖的条件生成对抗网络,可以从部分观察到的点云中生成多种多样的合理完整形状,这一方法在尊重部分观测的同时获得了更大的完成多样性。
- Wonder3D:跨域扩散实现从单幅图像到三维模型
Wonder3D 是一种将单视图图像转化为高保真纹理网格的新方法,通过引入一种跨域扩散模型生成多视图法线贴图和相应的彩色图像,从而从多视图 2D 表示中提取高质量表面
- IJCAI基于混合可微分渲染方法的高效多视角逆向渲染
从自然二维图像中恢复现实世界物体的形状和外观是一个长期存在且具有挑战性的逆渲染问题。本文介绍了一种新颖的混合可微渲染方法,能够从传统手持相机捕捉的多视图图像中高效重构场景的三维几何和反射率。我们的方法采用分析与合成的方法,分为两个阶段。在初 - 蒸馏特征场在少样本语言引导操纵中的应用
使用自我监督学习和语言监督学习的图像模型,结合精确的 3D 几何知识和丰富的 2D 语义特征,提出一种在机器人操作中填补 2D 到 3D 差距的方法,实现对未知物体的自由文本自我指定和泛化到其他物体类别的能力。
- OBJECT 3DIT:语言引导的三维感知图像编辑
通过语言指导的 3D 感知编辑,本研究利用图像编辑工具对基于底层 3D 场景的对象进行编辑,介绍了 OBJECT 数据集和 3DIT 模型的能力。
- CVPR端对端的带分段贝塞尔曲线的矢量高清地图构建
该研究提出了一种基于参数化方法的高清地图向量化方案,采用了统一分段贝塞尔曲线,通过直接集合预测范式和后处理无关的 BeMapNet 网络架构来实现了向量化。
- EPIC Fields: 结合 3D 几何和视频理解
介绍了一个名为 EPIC Fields 的神经渲染数据集,能够通过附加 3D 相机信息,为图像和视频理解提供更好的数据和基准,同时提供了两个神经渲染和分割动态对象的基准任务。