研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
本文介绍了一种基于Custom Diffusion的文本到图像生成模型,只需少量优化参数即可表示新概念并实现快速调整,还可以通过约束优化共同训练多个概念或组合多个微调模型,并在新颖的环境中将多个概念无缝组合生成,此方法在记忆和计算效能方面都占有优势。
Dec, 2022
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
本文提出了一种基于预测的物体框的注意力掩码控制策略,以解决文本到图像合成模型在语义上的局限性,尤其是属性泄漏、实体泄漏和缺失实体,该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合,此外,该方法简单而有效,可以轻松集成到现有的跨注意力扩散T2I生成器中,并成功地在生成内容中传达了原始文本的语义,并作为可用的插件得到了高可用性的证明。
May, 2023
这篇论文介绍了创造性文本到图像生成的任务,并使用未经研究的扩散先验模型来解决此问题,同时通过一个问题回答模型来逐渐发现越来越独特的创作,最后展示了先验约束不仅作为强大的混合机制,还能引入更多的灵活性。
Aug, 2023
现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难,本论文介绍了一种名为ObjectComposer的方法,通过不修改底层模型的权重,训练了一种无需fine-tuning的方法,可一次生成多个特定对象的组合。
Oct, 2023
通过混合倡议的多模态提示工程和细化,PromptCharm系统支持初学者用户在生成图像和优化载体过程中的生成式AI领域的最新进展,并通过可视化模型注意力值进行模型解释和反馈循环以提高生成图像的质量和用户期望的符合度。
Mar, 2024
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
通过分离并计算对象的实例以及修复缺失对象的形状和位置,本文提出了一种名为CountGen的模型,该模型在生成图像时能够准确控制对象的数量。
Jun, 2024
通过改进的自动分布条件并利用布局信息指导扩散过程,该研究提出了一种新颖的无需训练的方法,能够生成具有增强保真度和复杂性的内容丰富的图像。
Jul, 2024