通过生成表示实现自我调节图像生成

Dec, 2023

通过生成表示实现自我调节图像生成

Self-conditioned Image Generation via Generating Representations

Tianhong Li, Dina Katabi, Kaiming He

TL;DR这篇论文介绍了一种名为RCG的图像生成框架，通过自监督学习的表示分布条件进行图像生成，实现了高质量的图像生成，取得了显著的结果。

Abstract

This paper presents $\textbf{R}$epresentation-$\textbf{C}$onditioned image $\textbf{G}$eneration (rcg), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. →

发现论文，激发创造

具有PixelCNN解码器的条件图像生成

本研究使用基于PixelCNN架构的新图像密度模型探索了有条件的图像生成技术。模型可以以任何的向量作为条件，包括描述性标签或标记或其他网络产生的潜在嵌入向量。当以来自ImageNet数据库的类标签作为条件时，模型能够生成多样化、逼真的场景。同时，研究还证明了该模型可以作为强大的自编码器解码器，且具有比PixelRNN更高的性能且计算成本更低。

Jun, 2016

使用生成的图像训练模型的数据集不存在

利用生成网络产生的图像数据进行机器学习分类器的训练，本文提出了三种不同阶段的技术减少随机产生图像训练的不足，将其在ImageNet数据集上进行了检测，并相对于在实际数据上训练得到的分类器提供鼓舞人心的结果。

Nov, 2019

利用扩散模型对输入噪声进行调控以进行可控图像生成

通过给扩散模型输入精制的噪声来提高其控制性，从而可以产生基于语义属性的图像。

May, 2022

生成器知道无条件GAN中判别器应学习的内容

本研究探讨了在无条件图像生成中采用密集监督的有效性，发现生成器特征图可以替代昂贵的语义标签图，在此基础上提出了一种新的生成器引导判别器正则化方法（GGDR），从而能够在无条件图像生成中实现丰富的语义表达。实验结果表明，GGDR能够显著提高基线方法的性能。

Jul, 2022

MaskSketch: 无配对结构引导的遮罩图像生成

本文提出了一种名为MaskSketch的图像生成方法，它可以使生成结果在采样过程中通过使用辅助素描作为额外的调节信号进行空间调节。MaskSketch利用预训练的掩膜生成变压器，无需模型训练或配对监督，并且可以使用不同级别的输入素描。我们的结果表明，MaskSketch实现了高图像逼真度和对引导结构的正确性。在标准基准数据集上评估MaskSketch，它优于素描到图像翻译的最先进方法以及非配对的图像到图像翻译方法。

Feb, 2023

使用去噪器表征从无条件扩散模型生成条件数据

本文提出使用去噪扩散模型的内部表示来适应新条件，以解决向这些模型提供条件信息的难题，并演示如何使用生成的合成图像增强Tiny ImageNet训练集从而提高ResNet基线的分类精度。

Jun, 2023

图像、3D动画和视频的条件生成建模

通过探索条件生成模型的新的形式和在图像、3D动画和视频中的创新应用，本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构，并应用编码器-解码器结构进行生成任务和3D内容操作。在所有情况下，我们都将条件信息纳入生成过程中，以提高视觉数据的合成效率和生成内容的质量。

Oct, 2023

具备预训练生成模型的条件图像生成

通过经验分析，我们提出了一套方法，以降低在扩散模型中引入指导所带来的时间需求和计算开销，并且保持相当的图像质量，从而将计算时间减少大约三倍。

Dec, 2023

可控的图像生成与组合的并行标记预测

通过组合离散生成模型的对数概率输出，我们提出了一种可控条件图像生成的公式，该方法在FFHQ、Positional CLEVR和Relational CLEVR三个不同场景中实现了最先进的生成准确性，并达到了竞争性的Fréchet Inception Distance (FID)得分，平均生成准确性为80.71％，平均FID为24.23，与其他方法相比具有2.3倍至12倍的速度优势，并提供了可解释的控制性维度以及对文本-图像生成的精细控制能力。

May, 2024

MCGM：掩膜条件文本到图像生成模型

本研究解决了现有生成模型在生成特定姿势图像时的局限性。我们提出的掩膜条件文本到图像生成模型（MCGM）通过引入掩膜嵌入注入技术，提供对生成过程的灵活控制，使用户能够基于需求生成高质量图像。实验证明，MCGM有效提升了当前Break-a-scene生成模型的性能。

Oct, 2024