通过同步联合扩散实现一致的蒙太奇

Jun, 2023

通过同步联合扩散实现一致的蒙太奇

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung

TL;DR本文提出了 SyncDiffusion 方法，使用感知相似性损失从梯度下降同步多重扩散，用于生成更加协调的全景图。

Abstract

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often res

pretrained image diffusion models panoramas seamless montage generation syncdiffusion perceptual similarity loss

发现论文，激发创造

TwinDiffusion: 借助扩散模型增强全景图像生成的连贯性和效率

通过 Crop Fusion 对质量进行提升和通过 Cross Sampling 进行效率优化，本文提出了一种针对全景图像生成中可见接缝和不连贯过渡等挑战的优化框架 TwinDiffusion，该框架通过引入无需训练的优化阶段来改善相邻图像区域的相似性，以及通过交错采样策略在裁剪过程中生成动态补丁，并通过综合评估，包括连贯性、保真度、兼容性和效率等因素，与现有方法进行比较，结果表明我们的方法在生成无缝和连贯全景图方面性能优秀，为全景图像生成的质量和效率确立了新的标准。

Apr, 2024

SyncDreamer: 从单视图图像生成多视图一致的图像

我们提出了一个同步多视角扩散模型 SyncDreamer，该模型可以从单视图图像生成多视角一致的图像，解决了几何和颜色保持一致性的挑战。实验显示，SyncDreamer 生成的图像在不同视角上具有高度一致性，因此非常适合于新视点综合、文本到三维和图像到三维等各种三维生成任务。

Sep, 2023

MVDiffusion：基于对应关系感知扩散的全景多视图图像生成

MVDiffusion 是一种基于视角差异的、并行、全局相互作用的图片生成模型，其特征是应用了一个各视图之间基于对应关系的注意力机制，在保持全局一致的前提下，同时生成所有图片，可用于全景图像和基于几何的多视图图像生成。

Jul, 2023

SyncNoise: 文本驱动的三维场景编辑中的几何一致噪声预测

基于 2D 扩散模型的视觉编辑已经取得了显著的能力，但如何在多个视角上实现一致的编辑仍然是一个挑战。本文提出了 SyncNoise，一种新颖的几何引导的多视角一致噪声编辑方法，通过同步编辑多个视角以强制实现几何一致性，从而确保了语义结构和低频外观的全局一致性。通过设置一组锚定视角和跨视角重投影将其传播到相邻帧，以进一步提升高频细节的局部一致性。通过训练期间引入深度监督来提高多视角对应的可靠性，并在噪声和像素级别上增强几何一致性，我们的方法实现了高质量的 3D 编辑结果，尤其是在具有复杂纹理的场景中。

Jun, 2024

通过文本与图像扩散模型个性化定制 360 度全景图

基于扩散模型的个性化文本到图像（T2I）合成已经引起了最近研究的广泛关注，然而现有的方法主要集中在定制主题或风格上，忽视了全局几何的探索。本研究提出了一种集中于 360 度全景定制的方法，使用 T2I 扩散模型，它在本质上具有全局几何特性，通过精心制作的图像 - 文本配对数据集进行微调，最终采用 LoRA 进行训练。实验证明了我们定制的模型与所提出的 StitchDiffusion 相结合在生成高质量的 360 度全景图像方面的有效性。此外，我们的定制模型在产生未在微调数据集中见过的场景方面表现出卓越的泛化能力。

Oct, 2023

MultiDiff: 从单幅图像实现一致的新视角合成

提出了 MultiDiff 方法，它是一种用于从单个 RGB 图像一致地合成新视角的新方法，通过引入单目深度预测器和视频扩散模型作为强先验条件，实现了高质量和多视角一致的结果。

Jun, 2024

多视角一致性插值去噪视图融合

通过扩散模型进行新视图合成表现出了出色的潜力，然而这些常见方法中图像生成的独立过程导致在保持多视图一致性方面存在挑战。为了解决这个问题，我们引入了 ViewFusion，这是一种新颖的、无需训练的算法，可以无缝地集成到现有的预先训练好的扩散模型中。我们的方法采用自回归的方式，隐含地利用之前生成的视图作为下一个视图生成过程的上下文，确保在新视图生成过程中具有稳健的多视图一致性。通过通过插值去噪将已知视图信息融合到扩散过程中，我们的框架成功地将单视图条件模型扩展为能在多视图条件设置下工作，无需额外的微调。广泛的实验结果表明 ViewFusion 在生成一致且详细的新视图方面的有效性。

Feb, 2024

针对高分辨率图像合成的修复去噪扩散模型

我们提出了一种有效的去噪扩散模型，用于生成高分辨率图像 (例如 1024x512)，该模型是在小尺寸图像块 (例如 64x64) 上训练的。我们的算法名为 Patch-DM，其中设计了一种新的特征拼贴策略，以避免合成大尺寸图像时的边界伪影。通过特征拼贴，我们可以系统地裁剪并组合相邻图像块的部分特征来预测移位图像块的特征，从而在图像块特征空间中的重叠区域中实现整个图像的无缝生成。Patch-DM 在我们新收集的自然图像数据集 (1024x512) 以及标准基准较小尺寸 (256x256) 上产生了高质量的图像合成结果，包括 LSUN-Bedroom、LSUN-Church 和 FFHQ。我们将我们的方法与以前的基于图像块的生成方法进行了比较，并在所有四个数据集上获得了最先进的 FID 分数。此外，与经典的扩散模型相比，Patch-DM 还减少了内存复杂度。

Aug, 2023

具有扩散模型的长期光度一致的新视角综合

本文提出了一种基于条件扩散模型的新型生成模型，用于从单个输入图像生成相对的摄像机视图的连续序列的照片般逼真、视角一致、空间几何连续的图像。

Apr, 2023

同步多视角扩散下的文本引导纹理

介绍一种新颖的方法用于合成给定 3D 对象的纹理，通过预训练的文本到图像扩散模型，提出了一种同步多视点扩散方法，早期生成的纹理内容达成一致，确保纹理的一致性。

Nov, 2023