SEGA：利用语义维度指导扩散

Jan, 2023

SEGA: Instructing Diffusion using Semantic Dimensions

Manuel Brack, Felix Friedrich, Dominik Hintersdorf, Lukas Struppek, Patrick Schramowski...

TL;DR本文介绍了一种名为 SEGA 的文本生成图像方法，它能够使用户控制语义方向以生成多样化的高保真图像，并且在多种任务上展现了它的有效性和灵活性。

Abstract

text-to-image diffusion models have recently received a lot of interest for their astonishing ability to produce high-fidelity images from text only. However, achieving one-shot generation that aligns with the us

text-to-image diffusion models one-shot generation semantic control sega artistic conception

发现论文，激发创造

稳定的艺术家：在扩散潜空间中引导语义

利用基于文本的生成式模型生成高保真度图像的表现十分引人注目。然而，通过微调输入来实现对图像的高度控制仍然有很大的挑战。为了解决这一问题，研究者提出了一种称为稳定艺术家的图像编辑方法，它利用语义引导来沿着语义方向控制扩散过程中的不同变量数量，从而实现对图像的微调。通过这种方法，可以灵活地调整图像的构图、样式和整体艺术概念，并深入了解模型所学概念的表现，包括复杂的概念，如 “碳排放”。研究结果表明，在多项任务中，该方法能实现高质量的图像编辑和构图。

Dec, 2022

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

基于扩散的语义图像编辑与掩模引导

本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit，能够自动生成需要编辑的图像区域的遮罩，并利用潜在推理保留感兴趣区域的内容，该方法在 ImageNet 数据集上实现了最先进的编辑表现。

Oct, 2022

DreamWalk: 使用扩散引导的风格空间探索

通过分解文本提示为概念元素，并在单个扩散过程中应用单独的指导项，我们可以提供对风格和内容的细粒度控制，同时不需要微调扩散模型的内部层或操纵其神经网络。

Apr, 2024

生成语义通信：超越比特恢复的扩散模型

本研究提出了一种新颖的扩散引导框架的语意通信，通过高度压缩的语意信息来降低带宽使用，然后利用扩散模型从这些去噪的语意信息中学习合成语义一致的场景，从而生成保留语义信息的高质量图像。

Jun, 2023

EmerDiff：扩散模型中的新兴像素级语义知识

使用稳定扩散模型从特征图中提取语义信息，构建高分辨率细分割地图，以展示像素级语义知识的存在。

Jan, 2024

流式多扩散：基于区域的语义控制下的实时交互生成

通过稳定快速推理技术和重构模型为新提出的多提示流批处理架构，我们提出了 StreamMultiDiffusion，这是第一个基于区域的实时文本到图像生成框架，在单个 RTX 2080 Ti GPU 上实现了 1.57 FPS 的区域文本到图像合成生成速度，比现有解决方案快 10 倍。

Mar, 2024