SceneGenie: 基于场景图引导的扩散模型图像合成
利用预训练的文本到图像扩散模型和 CLIP 引导,我们的方法通过消除中间布局的预测,将图形知识转化为图像,从而生成与给定场景图一致的图像。实验证明,我们的方法在 COCO-stuff 和 Visual Genome 数据集的标准基准上优于现有方法。
Jan, 2024
使用场景图进行 3D 场景扩散引导的新方法,通过在去噪网络中使用关系图卷积块来利用场景图提供的相对空间信息,显著提高了场景描述与生成场景之间的对齐。
Aug, 2023
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。
Dec, 2021
利用 ControlNet 和 Gated Self-Attention,我们提出了多种方法来解决稀缺的图像和场景图数据,通过场景图生成高质量图像,超越了之前的方法。
Oct, 2023
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
SceneTextGen 是一种基于扩散模型的新颖方法,通过集成具有详细排版属性的字符级编码器,字符级实例分割模型和词级定位模型,以实现更自然和多样化的文本生成,从而提高了生成图像上的字符识别率。
Jun, 2024
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。
Sep, 2023
本文介绍了一项新的生成任务:联合场景图像生成。通过引入 DiffuseSG 模型,本文探索了生成逼真的场景图,使得图像生成具备高效和可解释性的控制能力,并展示了该模型在场景图生成以及相关应用中的优越性。
Jan, 2024
本文提出 GeoDiffusion,一种简单的框架,可以将各种几何条件灵活地转化为文本提示,为预训练的文本到图像扩散模型赋能高质量检测数据生成,实验证明它在维护更快的训练时间的同时优于先前的 L2I 方法。
Jun, 2023