驯服文本到 360° 全景图像生成的稳定扩散

CVPRApr, 2024

驯服文本到 360° 全景图像生成的稳定扩散

Taming Stable Diffusion for Text to 360° Panorama Image Generation

Cheng Zhang, Qianyi Wu, Camilo Cruz Gambardella, Xiaoshui Huang, Dinh Phung...

TL;DR通过双分支扩散模型 PanFusion，从文本提示生成 360 度全景图像，并使用投影感知的独特交叉注意机制提供协作降噪过程中的最小畸变。

Abstract

generative models, e.g., stable diffusion, have enabled the creation of photorealistic images from text prompts. Yet, the generation of 360-degree panorama images from text remains a challenge, particularly due t

generative models 360-degree panorama images stable diffusion dual-branch diffusion model cross-attention mechanism

发现论文，激发创造

通过文本与图像扩散模型个性化定制 360 度全景图

基于扩散模型的个性化文本到图像（T2I）合成已经引起了最近研究的广泛关注，然而现有的方法主要集中在定制主题或风格上，忽视了全局几何的探索。本研究提出了一种集中于 360 度全景定制的方法，使用 T2I 扩散模型，它在本质上具有全局几何特性，通过精心制作的图像 - 文本配对数据集进行微调，最终采用 LoRA 进行训练。实验证明了我们定制的模型与所提出的 StitchDiffusion 相结合在生成高质量的 360 度全景图像方面的有效性。此外，我们的定制模型在产生未在微调数据集中见过的场景方面表现出卓越的泛化能力。

Oct, 2023

Diffusion360: 基于扩散模型的无缝 360 度全景图像生成

基于扩散模型的 360 度全景图像生成任务的技术报告，提出了一种圆形混合策略，以实现几何连续性，同时提出了文本到 360 度全景图像和单图像到 360 度全景图像两个任务的模型

Nov, 2023

360DVD: 360 度视频扩散模型下的可控全景视频生成

提出了一种名为 360-Degree Video Diffusion model (360DVD) 的可控全景视频生成方法，通过引入 360-Adapter 轻量级模块和辅助 360 度增强技术，将预训练的文字到视频模型转化为生成全景视频的模型，并提出了 WEB360 数据集来训练 360DVD，实验证明其在全景视频生成方面具有卓越的优势和效果。

Jan, 2024

TwinDiffusion: 借助扩散模型增强全景图像生成的连贯性和效率

通过 Crop Fusion 对质量进行提升和通过 Cross Sampling 进行效率优化，本文提出了一种针对全景图像生成中可见接缝和不连贯过渡等挑战的优化框架 TwinDiffusion，该框架通过引入无需训练的优化阶段来改善相邻图像区域的相似性，以及通过交错采样策略在裁剪过程中生成动态补丁，并通过综合评估，包括连贯性、保真度、兼容性和效率等因素，与现有方法进行比较，结果表明我们的方法在生成无缝和连贯全景图方面性能优秀，为全景图像生成的质量和效率确立了新的标准。

Apr, 2024

从少量未注册的超广角图像生成 360 度全景

使用一种称为 PanoDiff 的新型方法，通过使用一个或多个未注册的 Narrow Field-of-View (NFoV) 图像，高效地生成完整的 360° 全景图，该方法通过两个主要组件来克服以往方法中的局限性，包括两阶段的角度预测模块和一种基于潜在扩散的全景生成模型，实验表明 PanoDiff 实现了最先进的全景生成质量和高可控性，适用于内容编辑等应用。

Aug, 2023

DreamScene360: 无约束的文本到 3D 场景生成与全景高斯喷洒

我们提供了一个文本转 3D 360 度场景生成流水线，能够在几分钟内为野外环境创建综合的 360 度场景。我们的方法利用 2D 扩散模型的生成能力和提示自我完善来创建高质量和全局连贯的全景图像，这作为一个初步的 “平面”（2D）场景表示。随后，通过采用粒子技术将它提升到 3D 高斯函数，以实现实时浏览。为了产生一致的 3D 几何结构，我们的流水线通过将 2D 单目深度对齐成全局优化点云，构建了一个空间连贯的结构。这个点云作为 3D 高斯函数的初始状态的质心。为了解决单视角输入固有的不可见问题，我们对合成和输入相机视图应用语义和几何约束作为规范，这些约束指导高斯函数的优化，帮助重建不可见的区域。总之，我们的方法提供了一个全局一致的 360 度视角的 3D 场景，相较于现有技术提供了更加增强的沉浸式体验。项目网址：this http URL

Apr, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

DreamSpace: 以文本驱动的全景纹理传播梦想您的房间空间

提出了一种新颖的室内场景纹理生成框架，通过联想和模仿技术，以及采用粗到精的全景纹理生成方法和双重纹理对齐，实现了以文本为驱动的纹理生成，具有迷人的细节和真实的空间一致性。

Oct, 2023

HexaGen3D：稳定扩散仅一步之遥，实现快速和多样化的文字到 3D 生成

使用预训练的 2D 扩散模型，HexaGen3D 有效地从文本提示中生成高质量的 3D 资产，并展示出对新对象或组合的强大推广能力。

Jan, 2024

流式多扩散：基于区域的语义控制下的实时交互生成

通过稳定快速推理技术和重构模型为新提出的多提示流批处理架构，我们提出了 StreamMultiDiffusion，这是第一个基于区域的实时文本到图像生成框架，在单个 RTX 2080 Ti GPU 上实现了 1.57 FPS 的区域文本到图像合成生成速度，比现有解决方案快 10 倍。

Mar, 2024