Envision3D:单图像到三维的锚定视图插值
我们介绍了 Unique3D,这是一种新颖的图像到 3D 框架,能够高效生成高质量的 3D 网格,具有最先进的生成质量和强大的泛化能力。我们的 Unique3D 在几何和纹理细节方面显著优于其他图像到 3D 基准。
May, 2024
Wonder3D 是一种将单视图图像转化为高保真纹理网格的新方法,通过引入一种跨域扩散模型生成多视图法线贴图和相应的彩色图像,从而从多视图 2D 表示中提取高质量表面
Oct, 2023
提出一种名为 Bootstrap3D 的新框架,它能自动生成任意数量的多视图图像,为多视图扩散模型的训练提供帮助。还引入了数据生成流水线和训练时间步骤重新安排策略,并通过大量实验证明 Bootstrap3D 能生成具有高质量、美学性、图像 - 文本对齐度和视图一致性的多视图图像。
May, 2024
通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图,然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D,一种新颖的方法,以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明,我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产,比之前需要 1 到 10 小时的基于优化的方法快两个数量级。
Nov, 2023
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从 10 天缩短到不到 1 天,并在相同计算平台上(8 个 Nvidia A100 GPU 实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
通过引入情景表示变换器和视图条件扩散模型,该论文提出了一个通用框架,用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性,该模型能够从仅一个图像输入生成超过基准方法在评估指标(包括 PSNR、SSIM 和 LPIPS)方面的三维网格。
May, 2024
用于高质量 3D 捕捉的 CAT3D 方法模拟实际捕捉过程中的多视图扩散模型,通过给定任意数量的输入图像和一组目标新视点,生成高度一致的场景新视图,可用作强大的 3D 重建技术的输入,以实时渲染任意视点的 3D 表示。CAT3D 在短短一分钟内就可以创建完整的 3D 场景,并优于现有的单张图片和少视图 3D 场景创建方法。
May, 2024
这篇论文提出了一种创新的方法 One-2-3-45++,可以在大约一分钟内将单张图像转化为详细的 3D 纹理网格,通过利用二维扩散模型的知识和有限的三维数据的先验信息,该方法能够快速生成高质量、多样化且与原始输入图像紧密相似的 3D 模型。
Nov, 2023
Era3D 是一种多视角扩散方法,通过单视角图像生成高分辨率的多视角图像。它提出了扩散式的摄像机预测模块以准确估计输入图像的焦距和仰角,使用行向注意力层来加强多视角扩散中的极线先验,实现高质量的多视角图像生成和具体的 3D 网格重建。
May, 2024
本文提出了一种使用真实图像来训练、无需 3D 场景真值信息,通过可微分点云渲染器将潜在 3D 特征点云转换为目标视图输出图像,并通过细化网络解码来填补缺失区域的新型端到端模型,在测试时可以对潜在特征空间进行可解释的操作,可以生成高分辨率图像并推广到其他输入分辨率,将在 Matterport、Replica 和 RealEstate10K 数据集上优于基线和之前的工作。
Dec, 2019