IFAdapter:实例特征控制的基于文本生成图像
本文提出了两个基于语言模型的可解释/可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen将T2I生成拆分成三个步骤,使用LM控制前两个步骤,并提供更强的空间控制;VPEval是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
该研究介绍了一种采用特征图作为引导的新型空间-语义地图引导扩散模型(SSMG),通过丰富的空间和语义信息,实现了优于以往工作的生成质量和充足的空间和语义可控性。实验结果表明,SSMG在保真度、多样性和可控性等多个指标上取得了非常有前景的结果,达到了新的技术水平。
Aug, 2023
这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法,提出了一种基于区域和边界感知的交叉注意力引导方法,通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明,该方法在多个基准测试上在质量和数量上均优于现有的零样本生成方法。
Oct, 2023
Text-to-image diffusion models are enhanced with InstanceDiffusion, allowing precise instance-level control through UniFusion block and Multi-instance Sampler, resulting in significant improvements over state-of-the-art models.
Feb, 2024
我们提出了一个多实例生成任务(MIG),在一幅图像中同时生成具有多样控制的多个实例。通过将MIG任务分解为若干子任务,并引入创新方法MIGC,利用实例增强的注意力机制精确阴影每个实例并聚合它们来生成多个整合属性和位置的实例。在COCO-MIG基准上进行了广泛实验,评估结果显示了我们模型在数量、位置、属性和交互方面的优异控制能力。
Feb, 2024
通过修改跨注意力矩阵,在保持图像质量的同时改进控制能力,本研究以 ControlNet 为例,研究了几种现有的跨注意力控制方法的局限性,并提出了一种新的跨注意力操纵方法,通过定位描述来实现对生成图像的精细控制。
Feb, 2024
本研究解决了现有文本到图像扩散模型在理解物体布局和关系方面的不足,提出了一种互动3D布局控制的新方法。通过引入动态自注意力模块和一致的3D物体转换策略,我们的实验表明,该方法在生成复杂场景方面显著提高了物体生成成功率,是室内设计和复杂场景生成的有力工具。
Aug, 2024
本研究解决了布局到图像生成中,现有方法在复杂文本描述场景下表现不佳的问题。提出了一种新颖的区域交叉注意力模块,以增强生成过程,并提出了评估开放词汇情景下生成性能的新指标。研究发现,这些指标与人类偏好高度一致,具有重要的应用潜力。
Sep, 2024
本研究解决了文本生成图像(T2I)扩散模型在生成多个实例时的定位和特征控制不足的问题。提出的实例特征生成(IFG)任务和实例特征适配器(IFAdapter)、通过引入外观标记和实例语义图,显著提高了生成实例的准确性和特征保真度。实验结果显示,IFAdapter在定量和定性评估中均优于其他模型,具有显著的应用潜力。
Sep, 2024