DiffRoom: 基于扩散的高质量三维房间重建与生成
我们介绍了 ShowRoom3D,这是一种从文本生成高质量的 3D 房间场景的三阶段方法。我们利用 3D 扩散先验 MVDiffusion 优化 3D 房间场景,并通过逐步扩展相机采样范围的渐进式视角选择和第二阶段的姿态变换方法,实现改善结构完整性、从任意视角提高清晰度、减少内容重复性和不同视角的一致性,显著超越了现有方法。
Dec, 2023
MiDiffusion 是一种新的混合离散 - 连续扩散模型架构,用于根据房间类型、平面图和可能的预存在对象合成逼真的室内 3D 场景,相比于自回归模型和扩散模型,在楼层条件下的 3D 场景合成表现出明显的优势,并可通过破坏和遮蔽策略处理部分对象约束,无需专门训练。
May, 2024
本文提出了基于自然语言的房间风格合成算法 RoomDreamer,通过 Geometry Guided Diffusion 和 Mesh Optimization 处理实现 3D 室内场景生成,大幅提升了几何和纹理的一致性和图像质量。
May, 2023
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型,我们在本研究中提出了三个贡献:首先,引入了一种新的神经场景表示方法 IB-planes,能够有效准确地表示大型三维场景,并在需要时动态分配更多容量以捕捉每张图像中可见的细节;其次,我们提出了一种去噪扩散框架,通过仅使用二维图像而不需要额外的监督信号(如掩码或深度)学习对这种新型三维场景表示的先验知识,从而支持三维重建和生成;第三,我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法,即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型,并在生成、新视图合成和三维重建方面展示了优越的结果。
Feb, 2024
提出了一种使用稀疏相机实现高质量 3D 人体重建的新系统 DiffuStereo,其核心是使用扩散模型将扩散模型引入到迭代立体匹配网络中,以实现立体匹配和深度估计。通过多级扩散模型立体网络结构处理高分辨率输入,该方法可以自动重建具有与高端重度视角摄像机组相当质量的人体模型。实验表明,该方法在定性和定量上均优于现有方法。
Jul, 2022
通过扩散模型生成向量楼层平面图是我们提出的新方法,使用 Transformer 架构和二维坐标的离散和连续去噪处理生成图形门窗等元素并在 RPLAN 数据集上得到了显著的改进
Nov, 2022
通过引入一种基于扩散的前馈框架,以及使用改进的三面平面和 3D-aware 转换器、编码器 / 解码器来处理大规模的 3D 资源生成任务,该研究提出了一个更强的 3D 生成模型,以增强多样性、语义和质量。
May, 2024
DiffRef3D 是一种新颖的框架,采用了首次将扩散流程应用于使用点云的三维物体检测,通过将噪声逐渐添加到提案和目标物体之间的残差,并将噪声残差应用于提案以生成假设,然后通过迭代步骤对假设进行精确的盒子预测,从而在现有的三维物体检测模型中持续改进性能。
Oct, 2023
SceneDiffuser 是一个用于 3D 场景理解的条件生成模型,通过扩散过程,联合制定了场景感知生成、基于物理的优化和面向目标的规划模块,相对于之前的模型,具有内在的场景感知、基于物理的设计器和面向目标的设计等优点,在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。
Jan, 2023