从单张图像实现的 3D 物体绑定
通过对扩散时间步骤进行区分处理,提出了 Diffusion Time-step Curriculum one-image-to-3D(DTC123)的一种单图到三维管道,以实现 score distillation sampling(SDS)方法在重建三维物体时的更好效果。
Apr, 2024
通过结合隐式场学习和点扩散,IPoD 方法在 3D 对象重建方面取得了优越性能,对动态适应目标对象形状以及提高精细细节刻画能力起到了积极作用。在 CO3D-v2 和 MVImgNet 数据集上的实验结果验证了 IPoD 方法在 F 分数和 Chamfer 距离上相对于现有方法的 7.8% 和 28.6% 的改进性能。
Mar, 2024
通过运行时解码器的超网络 (D'OH) 在单个实例信号中初始化深度隐式函数的策略,提供了一种自然的方法来改变神经表示的内存占用,而无需在备选低速率结构空间上进行昂贵的神经架构搜索。
Mar, 2024
本研究提出了一种名为 MVDiffusion++ 的神经架构,用于 3D 物体重建,通过一张或几张图像生成物体的密集高分辨率视图。MVDiffusion++ 采用了两个令人惊讶地简单的想法,即 “无姿态架构”,其中 2D 潜在特征之间的标准自注意力学习了在任意数量的条件和生成视图之间的 3D 一致性,而无需明确使用相机姿态信息,并且 “视图丢弃策略” 在训练期间丢弃了大量输出视图,减少了训练时的内存占用,并且在测试时实现了密集高分辨率视图合成。我们使用 Objaverse 进行训练并使用 Google 扫描的物体进行评估,采用了标准的新视图合成和 3D 重建度量,其中 MVDiffusion++ 显著优于当前的技术水平。我们还通过将 MVDiffusion++ 与文本到图像生成模型相结合,展示了一个文本到 3D 的应用示例。
Feb, 2024
iFusion 是一个新颖的 3D 物体重建框架,只需两个未知相机姿态的视图。通过使用预训练的新视图合成扩散模型进行相机姿态估计和新视图合成,iFusion 能够在 3D 物体重建中表现出良好的性能并与其他方法相融合。
Dec, 2023
本文提出一种新方法,通过引入 2D 遮挡澄清和物理接触约束,从而处理遮挡下的表面重建问题,该方法在测试集上表现优于现有方法,HO3D 效果提高了 52%,HOD 效果提高了 20%。
Dec, 2023
通过多物体深度隐式函数模型(MODIF),我们提出了一种学习多个非刚性实例的变形场和实例特定潜在代码的方法,以实现精确、无碰撞的形状表示,并在医学基准测试中展示了其优越性能。
Dec, 2023
利用预训练的 2D 大规模生成模型,我们提出了 DreamComposer,一个可灵活可扩展的框架,通过注入多视图条件来增强现有的视图感知扩散模型,以生成具有高保真度的具有多视图条件的新视图图像,并用于可控的 3D 物体重建和其他各种应用。
Dec, 2023
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,即使视觉重叠很少,同时在单个 A100 GPU 上估计相对相机姿势,仅需约 1.3 秒。PF-LRM 是一种高度可扩展的方法,利用自注意力块在三维物体标记和二维图像标记之间交换信息;我们为每个视图预测粗略的点云,然后使用可微的透视 - n - 点(PnP)求解器获得相机姿势。当在约 1M 个多视图姿势数据上进行训练时,PF-LRM 表现出强大的跨数据集泛化能力,并在各种未见评估数据集上以姿势预测准确性和三维重建质量大幅超越基线方法。我们还展示了模型在下游文本 / 图像到三维任务中的适用性,并具有快速的前馈推理。项目网站位于: this https URL。
Nov, 2023
通过采用点云作为目标几何结构的中间表示,该研究论文调查了一种名为 HaP 的显式基于点云的人体重建框架,通过完全显式地进行点云的估计、处理、生成和优化来解决现有学习方法在灵活性、普适性、稳健性和表达能力方面的局限性。
Nov, 2023