在控制生成方面与文本到图像扩散模型的研究领域,通过调查文献并总结了控制性生成,包括基本概念和实践研究。
Mar, 2024
这篇综述论文提供了关于生成式 AI 扩散和传统模型的全面概述,主要介绍了它们的基本技术、在不同领域的应用以及所面临的挑战,旨在为研究人员和从业者提供全面了解,并激发未来在这个令人兴奋的人工智能领域的创新。
Feb, 2024
本研究使用 fine-tuned 的 diffusion model 结合 AI 模型通过文本指导来生成纺织花样,并且在视觉和数值上与基准模型进行了比较,证明了该模型在纺织花样生成方面具有更好的质量和效率,并有望在纺织行业中简化设计过程。
Apr, 2023
生成工具的惊人增长赋予了文本向图像生成和文本向视频生成等许多令人兴奋的应用,这些生成工具的底层原理是扩散概念,一种克服了以前方法中困难的特定抽样机制。本教程旨在讨论扩散模型的基本思想,目标受众包括对扩散模型进行研究或将其应用于解决其他问题的本科和研究生学生。
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
本文提出一种名为 CTIG-DM 的新方法,它结合了图像条件、文本条件和风格条件来控制样本在图像生成过程中的属性、内容和风格。经过大量的实验,证明 CTIG-DM 能够产生模拟现实世界复杂性和多样性的图像样本,具有很强的潜力用于领域适应和生成包含 OOV(Out-Of-Vocabulary)词的图像。
Jun, 2023
本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion},它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。
文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法,提供了几种不同的方法并对其进行了详细比较和评价,为未来的工作提供了改进的可能路径。