通过同步联合扩散实现一致的蒙太奇
通过 Crop Fusion 对质量进行提升和通过 Cross Sampling 进行效率优化,本文提出了一种针对全景图像生成中可见接缝和不连贯过渡等挑战的优化框架 TwinDiffusion,该框架通过引入无需训练的优化阶段来改善相邻图像区域的相似性,以及通过交错采样策略在裁剪过程中生成动态补丁,并通过综合评估,包括连贯性、保真度、兼容性和效率等因素,与现有方法进行比较,结果表明我们的方法在生成无缝和连贯全景图方面性能优秀,为全景图像生成的质量和效率确立了新的标准。
Apr, 2024
我们提出了一个同步多视角扩散模型 SyncDreamer,该模型可以从单视图图像生成多视角一致的图像,解决了几何和颜色保持一致性的挑战。实验显示,SyncDreamer 生成的图像在不同视角上具有高度一致性,因此非常适合于新视点综合、文本到三维和图像到三维等各种三维生成任务。
Sep, 2023
MVDiffusion 是一种基于视角差异的、并行、全局相互作用的图片生成模型,其特征是应用了一个各视图之间基于对应关系的注意力机制,在保持全局一致的前提下,同时生成所有图片,可用于全景图像和基于几何的多视图图像生成。
Jul, 2023
基于 2D 扩散模型的视觉编辑已经取得了显著的能力,但如何在多个视角上实现一致的编辑仍然是一个挑战。本文提出了 SyncNoise,一种新颖的几何引导的多视角一致噪声编辑方法,通过同步编辑多个视角以强制实现几何一致性,从而确保了语义结构和低频外观的全局一致性。通过设置一组锚定视角和跨视角重投影将其传播到相邻帧,以进一步提升高频细节的局部一致性。通过训练期间引入深度监督来提高多视角对应的可靠性,并在噪声和像素级别上增强几何一致性,我们的方法实现了高质量的 3D 编辑结果,尤其是在具有复杂纹理的场景中。
Jun, 2024
基于扩散模型的个性化文本到图像(T2I)合成已经引起了最近研究的广泛关注,然而现有的方法主要集中在定制主题或风格上,忽视了全局几何的探索。本研究提出了一种集中于 360 度全景定制的方法,使用 T2I 扩散模型,它在本质上具有全局几何特性,通过精心制作的图像 - 文本配对数据集进行微调,最终采用 LoRA 进行训练。实验证明了我们定制的模型与所提出的 StitchDiffusion 相结合在生成高质量的 360 度全景图像方面的有效性。此外,我们的定制模型在产生未在微调数据集中见过的场景方面表现出卓越的泛化能力。
Oct, 2023
提出了 MultiDiff 方法,它是一种用于从单个 RGB 图像一致地合成新视角的新方法,通过引入单目深度预测器和视频扩散模型作为强先验条件,实现了高质量和多视角一致的结果。
Jun, 2024
通过扩散模型进行新视图合成表现出了出色的潜力,然而这些常见方法中图像生成的独立过程导致在保持多视图一致性方面存在挑战。为了解决这个问题,我们引入了 ViewFusion,这是一种新颖的、无需训练的算法,可以无缝地集成到现有的预先训练好的扩散模型中。我们的方法采用自回归的方式,隐含地利用之前生成的视图作为下一个视图生成过程的上下文,确保在新视图生成过程中具有稳健的多视图一致性。通过通过插值去噪将已知视图信息融合到扩散过程中,我们的框架成功地将单视图条件模型扩展为能在多视图条件设置下工作,无需额外的微调。广泛的实验结果表明 ViewFusion 在生成一致且详细的新视图方面的有效性。
Feb, 2024
我们提出了一种有效的去噪扩散模型,用于生成高分辨率图像 (例如 1024x512),该模型是在小尺寸图像块 (例如 64x64) 上训练的。我们的算法名为 Patch-DM,其中设计了一种新的特征拼贴策略,以避免合成大尺寸图像时的边界伪影。通过特征拼贴,我们可以系统地裁剪并组合相邻图像块的部分特征来预测移位图像块的特征,从而在图像块特征空间中的重叠区域中实现整个图像的无缝生成。Patch-DM 在我们新收集的自然图像数据集 (1024x512) 以及标准基准较小尺寸 (256x256) 上产生了高质量的图像合成结果,包括 LSUN-Bedroom、LSUN-Church 和 FFHQ。我们将我们的方法与以前的基于图像块的生成方法进行了比较,并在所有四个数据集上获得了最先进的 FID 分数。此外,与经典的扩散模型相比,Patch-DM 还减少了内存复杂度。
Aug, 2023
介绍一种新颖的方法用于合成给定 3D 对象的纹理,通过预训练的文本到图像扩散模型,提出了一种同步多视点扩散方法,早期生成的纹理内容达成一致,确保纹理的一致性。
Nov, 2023