混合扩散用于 3D 室内场景合成
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
SceneDiffuser 是一个用于 3D 场景理解的条件生成模型,通过扩散过程,联合制定了场景感知生成、基于物理的优化和面向目标的规划模块,相对于之前的模型,具有内在的场景感知、基于物理的设计器和面向目标的设计等优点,在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。
Jan, 2023
本文提出了一种扩展离散扩散模型的方法,用于生成 3D 场景,并在场景级别上使用分类分布来指定多个对象。同时,使用潜在扩散模型可以降低训练和部署的计算成本。作者还使用该模型进行了场景完成的任务,并在实验中证明了该模型生成的场景的合理性和任务完成的优越性。
Jan, 2023
通过扩散模型生成向量楼层平面图是我们提出的新方法,使用 Transformer 架构和二维坐标的离散和连续去噪处理生成图形门窗等元素并在 RPLAN 数据集上得到了显著的改进
Nov, 2022
DiffRoom 提出了一种稀疏的 3D 扩散网络,它基于粗糙的占用先验和分层扩散学习结构,实现了高质量的 3D 室内重建和生成。
Jun, 2023
我们提出了一种名为 3DiM 的扩散模型,用于 3D 新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM 的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
Apr, 2024
借助 Viewset Diffusion 框架,可以从 2D 数据中训练图像条件化的 3D 生成模型,从而解决单视图 3D 重建中的歧义问题,并通过对多视图图像集的去噪扩展了 3D 真实数据的可用性,通过仅渲染 3 张图片,我们的模型可以执行 3D 生成和单视图重建。
Jun, 2023
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
通过扩展基于自回归的人体感知 3D 场景生成方法,本研究探索了扩散模型在同时考虑多个输入人体和底图的情况下生成逼真三维场景的潜力,并引入了人物物体碰撞避免和房间边界约束等空间碰撞导向机制来避免与人体动作冲突的场景生成。大量实验结果表明,与现有最先进方法相比,我们的框架可以生成更自然、更逼真的三维场景,具有精确的人体场景交互,并显著减少人物物体碰撞。
Jun, 2024