多视角漫反射器视图和几何优化提炼
Sparse3D 是一种针对稀疏视角输入的新型三维重建方法,通过从强大的图像扩散模型提取 2D 先验,使得我们的综合模型在面对开放世界对象时仍能始终保持高质量的结果,并借助 C-SDS 技术来增强细节,实验证明了我们的方法在 NVS 和几何重建方面优于之前的最先进工作。
Aug, 2023
通过引入情景表示变换器和视图条件扩散模型,该论文提出了一个通用框架,用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性,该模型能够从仅一个图像输入生成超过基准方法在评估指标(包括 PSNR、SSIM 和 LPIPS)方面的三维网格。
May, 2024
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
Apr, 2024
通过将预训练的二维扩散模型引入神经光辐射场(NeRFs),文本到三维生成方法取得了巨大的进展,其中许多最先进的方法通常使用得分蒸馏采样(SDS)来优化 NeRF 表示,该方法通过预训练的文本条件的二维扩散模型(例如 ImData)监督 NeRF 优化。然而,由这种预训练扩散模型提供的监督信号仅依赖于文本提示,并不限制多视角一致性。为了将跨视角一致性引入扩散先验中,一些最近的工作通过多视角数据微调二维扩散模型,但仍缺乏细粒度的视图连贯性。为了解决这个挑战,我们将多视角图像条件纳入 NeRF 优化的监督信号中,明确强制执行细粒度的视图一致性。通过这种更强的监督,我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明,我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。
Dec, 2023
我们提出了一种新颖的方法,用于从多个图像中进行 3D 物体表面重建,其中只捕获了物体的一部分。我们的方法基于两个最新发展:使用神经辐射场进行表面重建,用于重建表面的可见部分,以及使用预训练的 2D 扩散模型的指导(SDS)完成未观察到的区域的形状。我们引入了三个组件:首先,建议使用法线图作为 SDS 的纯几何表示,而不是与外观信息交织在一起的颜色渲染。其次,我们在训练过程中使 SDS 噪声保持固定,这会导致更一致的梯度和更好的收敛性。第三,我们提出了多视角 SDS 作为一种在不对底层 2D 稳定扩散模型进行微调或更改的情况下对非可观察部分的生成进行条件化的方法。我们在 BlendedMVS 数据集上对我们的方法进行评估,结果显示相比竞争方法,我们取得了显著的定量和定性改进。
Dec, 2023
利用 MVHuman 方案,通过多视角采样策略和预训练的 Stable Diffsuions 网络生成人体辐射场,无需微调或蒸馏,且优于现有的 3D 人体生成方法。
Dec, 2023
单视角新视角合成是计算机视觉中一项重要而具有挑战性的任务。本文提出了一种基于条件扩散模型的 Light Field Diffusion,通过引入局部像素约束,鼓励更好的多视角一致性,实现高保真图像的生成。
Sep, 2023
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022