双重记忆的少样本组合字体生成
我们提出了一种新的训练免费和易于传输的文本到图像生成框架 RealCompo,旨在借鉴文本到图像和布局到图像模型的优势,增强生成图像的真实性和组合性,通过一个直观和新颖的平衡器动态平衡两个模型在去噪过程中的优势,允许任意模型的即插即用使用,广泛实验证明我们的 RealCompo 始终胜过最先进的文本到图像模型和布局到图像模型在多对象组合生成中同时保持令人满意的真实性和组合性。
Feb, 2024
我们提出了一种主题驱动的生成框架,通过介入生成过程中的推理时间,强化注意力图,实现精确的属性绑定和特征注入,展示了卓越的零次生成能力,尤其在组合生成的挑战性任务中。
May, 2024
本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案,探索了自然语言的组成和顺序性,选择性地关注输入图像中每个检测到的对象的不同模块,以包括计数和颜色等特定描述,提出模型优于现有模型,结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。
Jul, 2020
本研究提出了 T2I-CompBench,这是一个全面的开放式文本成像生成基准测试,包括 6000 个组合文本提示,分为 3 个类别和 6 个子类别,并介绍了几个特定设计的评估度量标准,以评估组合文本到图像生成的效果,并提出了新的生成模型细调和奖励驱动的样本选择(GORS)方法来提高预训练文本到图像模型的组合文本到图像生成能力。
Jul, 2023
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
图像合成的目标是将前景对象与背景图像合并以获取逼真的合成图像。最近,基于大型预训练扩散模型的生成式合成方法由于其前所未有的图像生成能力而得到发展。然而,生成的结果往往会丢失前景细节并出现明显的伪影。在本文中,我们提出了一种名为 DreamCom 的尴尬简单方法,灵感来自 DreamBooth。具体来说,给定一个主题的几个参考图像,我们通过微调文本导向修复扩散模型来将该主题与特殊标记相关联,并在指定的边界框内修复该主题。我们还构建了一个专门为此任务设计的新数据集 MureCom。
Sep, 2023
我们提出了一种名为 Compositional Sculpting 的方法,用于定义迭代生成过程的组合,通过分类器指导实现了采样,展示了在 GFlowNets 和扩散模型中实现组成塑造的方法,并提供了在图像和分子生成任务上的实证结果。
Sep, 2023
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本 - 图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023
我们提出了 CompAgent,这是一种无需训练的组合文本到图像生成方法,核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性,尤其是在保留对象属性和关系方面,通过先将文本提示分解成独立的对象、属性和场景布局,并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。
Jan, 2024
现有的文本 - 图像模型在遵循复杂文本提示上困难重重,因此需要额外的基础输入以提高可控性。本研究提出将场景分解为可容纳细粒度细节、模块化、可解释的、易于构建的视觉基元 - 密集 Blob 表示。基于 Blob 表示,我们开发了一种基于 Blob 的文本 - 图像扩散模型 BlobGEN,用于组合生成。通过引入新的屏蔽式交叉注意力模块来解开 Blob 表示和视觉特征之间的融合,以发挥大型语言模型 (LLMs) 的组合性。我们引入了一种新的上下文学习方法来从文本提示生成 Blob 表示。我们广泛的实验表明,BlobGEN 在 MS-COCO 上实现了卓越的零样本生成质量和更好的布局引导可控性。当与 LLMs 结合使用时,我们的方法在组合图像生成基准上展现出卓越的数值和空间正确性。
May, 2024