生成AI中的文本与图像扩散模型: 一项调查
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种“文字涂鸦”的技术,可帮助用户控制所需的图像输出。
Nov, 2022
文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法,提供了几种不同的方法并对其进行了详细比较和评价,为未来的工作提供了改进的可能路径。
Sep, 2023
通过prompt学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树,提供了一个统一的生成系统,能够适应各种类型的提示并集成领域专家模型,推动了多领域图像合成的边界。
Jan, 2024
这篇综述论文提供了关于生成式AI扩散和传统模型的全面概述,主要介绍了它们的基本技术、在不同领域的应用以及所面临的挑战,旨在为研究人员和从业者提供全面了解,并激发未来在这个令人兴奋的人工智能领域的创新。
Feb, 2024
调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述,包括理论和实践方面,并从多个角度对这些作品进行了彻底分析和分类,介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外,对图像修复和扩展进行了特别关注,并探讨了早期的传统上下文驱动方法和当前的多模态条件方法,全面分析了它们的方法论。最后,讨论当前的限制并展望未来的研究方向。
Feb, 2024
本研究解决了现有文本到图像生成模型在用户对生成结果的精确控制方面的挑战。提出了一种新颖的无训练管道,利用草图作为附加条件,通过潜在优化方法提高生成图像与草图结构的准确性和保真度,从而增强用户在内容创作中的控制和定制选项。该方法有望在现实世界内容创作中提供更高的灵活性和质量。
Aug, 2024