该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
利用新提出的框架,将大型语言模型与文本到图像生成模型灵活地集成在一起,并通过消除固有的位置偏差和增强文本表示能力提高预测性能。
Jun, 2024
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响,它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia),此现象在各种生成模型中普遍存在,为了利用从网络中爬取的大规模数据所获得的收益,我们必须认真对待它。
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
提出一种全新的基于训练自由的文本到图像生成 / 编辑框架 RPG,该框架利用多模态 LLMs 的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本 - 图像语义对齐方面优于 DALL-E 3 和 SDXL 等最先进的文本到图像扩散模型。
提出了一种名为 ClickDiffusion 的系统,结合自然语言指令和用户通过直接操作界面提供的可视化反馈,将图像和多模态指令序列化为文本表示形式,以实现图像的精确变换和生成。
Apr, 2024