StereoDiffusion：基于潜在扩散模型的无训练立体图像生成

Mar, 2024

StereoDiffusion：基于潜在扩散模型的无训练立体图像生成

StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models

Lezhong Wang, Jeppe Revall Frisvad, Mark Bo Jensen, Siavash Arjomand Bigdeli

TL;DR为满足多种 XR 设备的需求，我们介绍了一种名为 StereoDiffusion 的方法，该方法与传统的修复流程不同，无需训练即可轻松使用，并与原始的 Stable Diffusion 模型完美集成。我们的方法通过修改潜变量，能够快速生成立体图像对，无需微调模型权重或对图像进行后处理。使用原始输入生成左图像并为其估计视差图，我们通过 Stereo Pixel Shift 操作生成右图像的潜向量，同时辅以 Symmetric Pixel Shift Masking Denoise 和 Self-Attention Layers Modification 方法，将右图像与左图像对齐。此外，我们提出的方法在整个立体生成过程中保持了高水平的图像质量，在各种定量评估中取得了最先进的成绩。

Abstract

The demand for stereo images increases as manufacturers launch more XR devices. To meet this demand, we introduce stereodiffusion, a method that, unlike traditional →

stereo images stereodiffusion inpainting pipelines latent variable stereo generation process

发现论文，激发创造

在空中训练：使用生成数据提高图像分类

本文介绍了一种名为 “Diffusion Inversion” 的方法，该方法使用预先训练的生成模型 Stable Diffusion，通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖，即可生成多样高质量的训练图片，此方法通过三个关键部件成功替换了原始数据集，从而提高了样本复杂度并缩短了采样时间，不仅优于泛化提示导向方法和 KNN 检索基线，还可与常见数据增强技术兼容，提高少样本学习的可靠性。

May, 2023

DiffHarmony：潜在扩散模型与图像融合

本研究旨在解决图像融合的问题，通过调整图像的前景与背景以达到统一的视觉一致性。研究采用预训练的潜在扩散模型生成和初步处理模糊的初始图像，通过两种策略（在推理过程中利用高分辨率图像和引入额外的优化阶段）进一步提高初步处理后图像的清晰度，并通过在 iHarmony4 数据集上进行大量实验证明了我们方法的优越性。

Apr, 2024

RenderDiffusion：用于 3D 重建、修补与生成的图像扩散

本文提出了 RenderDiffusion，这是第一个用于 3D 生成和推断的扩散模型，使用仅有的单眼 2D 监督进行训练，并采用新颖的图像去噪架构进行中间的三维表示，以提供强烈归纳结构，同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion，展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外，我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。

Nov, 2022

调色板：图像到图像扩散模型

本文提出了一种基于条件扩散模型的统一框架，用于图像到图像的转换，并在四个具有挑战性的图像到图像任务中测试了这个框架，即上色，修复，裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线，无需任务特定的超参数调整，架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响，并通过实证研究证明了自我关注在神经结构中的重要性。重要的是，我们提倡一个基于 ImageNet 的统一评估协议，具有人工评估和样本质量得分（FID，Inception Score，预训练 ResNet-50 的分类准确度和与原始图像的感知距离），我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后，我们展示了一个通用的，多任务扩散模型的执行效果与任务特定的专家模型相当或更好。

Nov, 2021

一种简单的潜隐扩散方法用于全景分割和蒙版修复

该论文介绍了使用稳定的扩散和潜在扩散方法进行全景分割的架构，它通过训练浅层自动编码器和扩散模型实现了对分割掩模的操控，呈现了全景分割和遮罩修复的有 promising 结果。

Jan, 2024

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

扩散模型是几何评论者：使用预训练的扩散先验进行单图像三维编辑

提出一种新颖的图像编辑技术，可以在单幅图像上进行三维操作，如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型，实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑，突破了单幅图像三维感知编辑的可能性的局限。

Mar, 2024

基于扩散的图像修复与内部学习

本文提出了一种用于图像修复的轻量级扩散模型，可以在单幅图像或几幅图像上进行训练，结果表明我们的方法在某些情况下可以与大型先进模型竞争，特别适用于与标准学习数据库中的 RGB 图像不同的图像获取模态，并在纹理图像、线条图像和材料 BRDF 等三个不同情境中取得了逼真度方面的最新成果，与相应方法相比计算负荷大大减少。

Jun, 2024

快速高分辨率图像合成与潜在敌对扩散蒸馏

通过利用预训练的潜在扩散模型的生成特征，我们引入了一种名为 LADD 的新的蒸馏方法，它简化了训练并提高了性能，实现了高分辨率的多纵横比图像合成。我们将 LADD 应用于 Stable Diffusion 3 (8B) 以获得 SD3-Turbo，这是一个快速模型，仅使用四个无导向采样步骤就能达到与现有技术文本到图像生成器相当的性能。此外，我们还系统地研究了其扩展行为，并展示了 LADD 在图像编辑和修复等各种应用中的有效性。

Mar, 2024