通过生成表示实现自我调节图像生成
本研究使用基于PixelCNN架构的新图像密度模型探索了有条件的图像生成技术。模型可以以任何的向量作为条件,包括描述性标签或标记或其他网络产生的潜在嵌入向量。当以来自ImageNet数据库的类标签作为条件时,模型能够生成多样化、逼真的场景。同时,研究还证明了该模型可以作为强大的自编码器解码器,且具有比PixelRNN更高的性能且计算成本更低。
Jun, 2016
利用生成网络产生的图像数据进行机器学习分类器的训练,本文提出了三种不同阶段的技术减少随机产生图像训练的不足,将其在ImageNet数据集上进行了检测,并相对于在实际数据上训练得到的分类器提供鼓舞人心的结果。
Nov, 2019
本研究探讨了在无条件图像生成中采用密集监督的有效性,发现生成器特征图可以替代昂贵的语义标签图,在此基础上提出了一种新的生成器引导判别器正则化方法(GGDR),从而能够在无条件图像生成中实现丰富的语义表达。实验结果表明,GGDR能够显著提高基线方法的性能。
Jul, 2022
本文提出了一种名为MaskSketch的图像生成方法,它可以使生成结果在采样过程中通过使用辅助素描作为额外的调节信号进行空间调节。MaskSketch利用预训练的掩膜生成变压器,无需模型训练或配对监督,并且可以使用不同级别的输入素描。我们的结果表明,MaskSketch实现了高图像逼真度和对引导结构的正确性。在标准基准数据集上评估MaskSketch,它优于素描到图像翻译的最先进方法以及非配对的图像到图像翻译方法。
Feb, 2023
本文提出使用去噪扩散模型的内部表示来适应新条件,以解决向这些模型提供条件信息的难题,并演示如何使用生成的合成图像增强Tiny ImageNet训练集从而提高ResNet基线的分类精度。
Jun, 2023
通过探索条件生成模型的新的形式和在图像、3D动画和视频中的创新应用,本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构,并应用编码器-解码器结构进行生成任务和3D内容操作。在所有情况下,我们都将条件信息纳入生成过程中,以提高视觉数据的合成效率和生成内容的质量。
Oct, 2023
通过组合离散生成模型的对数概率输出,我们提出了一种可控条件图像生成的公式,该方法在FFHQ、Positional CLEVR和Relational CLEVR三个不同场景中实现了最先进的生成准确性,并达到了竞争性的Fréchet Inception Distance (FID)得分,平均生成准确性为80.71%,平均FID为24.23,与其他方法相比具有2.3倍至12倍的速度优势,并提供了可解释的控制性维度以及对文本-图像生成的精细控制能力。
May, 2024
本研究解决了现有生成模型在生成特定姿势图像时的局限性。我们提出的掩膜条件文本到图像生成模型(MCGM)通过引入掩膜嵌入注入技术,提供对生成过程的灵活控制,使用户能够基于需求生成高质量图像。实验证明,MCGM有效提升了当前Break-a-scene生成模型的性能。
Oct, 2024