Design Booster:一种注重空间布局保留的文本引导扩散模型用于图像翻译
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
使用文本生成图像的方法已显著提高了生成图像建模的状态,通过结合自然语言界面和空间控制,在本文中,我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题,并提出了 ZestGuide,这是一种零 - shot 分割指导方法,可插入预先训练的文本到图像扩散模型中,我们的实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量,而在 COCO 数据集上,我们的结果比 Paint with Words 更好。
Jun, 2023
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
提出了第一个框架,用于保留单个图像的视觉属性并编辑其布局,并通过文本反演和优化方法实现多对象特征的分离和布局控制,从而优于其他支持此任务的基线。
Jun, 2023
本文提出了一种基于扩散的非监督图像转换方法,使用分离的风格和内容表征,并使用 ViT 模型中的中间键提取多头自注意层作为内容保存损失,并匹配文本驱动风格转移的 [CLS] 分类令牌,同时使用额外的 CLIP 损失,实验结果表明,该方法在文本引导和图像引导的转换任务中优于现有的基准模型。
Sep, 2022