$P+$:文本到图像生成中的扩展文本调节
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种“文字涂鸦”的技术,可帮助用户控制所需的图像输出。
Nov, 2022
本文提出了一种基于进化策略的梯度自由框架,用于优化文本反演的过程,试图解决个性化文本生成中因梯度下降算法的内存消耗大、部署复杂等问题。实验结果表明,采用该方法生成的文本图像与采用梯度下降方法生成的相比,性能几乎没有损失,但能够获得更高的计算效率和更广泛的适用性。
Apr, 2023
本文提出了一种基于Prompt Tuning Inversion的精确快速反演技术,用于文本驱动的图像编辑,能够在保留输入图像高准确度的同时进行灵活的编辑,实验证明该方法在ImageNet数据集上的表现优于现有技术。
May, 2023
本文提出一种新的图像生成方法ProSpect,结合Prompt Spectrum Space P*和per-stage prompts编码图像,使图像的特定视觉属性比如材质、风格和布局可以更容易地被嵌入和编辑,进而应用于图像转换和编辑中,通过个性化条件实现单幅图像的多种表现形式和特性。
May, 2023
本文研究了使用用户提供的参考图像约束扩散模型输出的问题,旨在从单个参考图像中提取多个属性,并使用这些属性生成新的样本。首先,文中分析了在去噪过程的时间步维度和DDPM模型层维度中捕获的属性,并发现某些属性在相同的模型层和时间步骤中被捕获。基于这些发现,文中设计了一种新的多属性逆向算法MATTE,可以明确分离四个属性(颜色、风格、布局和物体)。
Nov, 2023
通过使生成的图像内容与用户意图一致的提示,该方法利用扩散模型进行串行优化得到直观的语言提示,从而产生具有相似内容的多样化图像。
Dec, 2023
通过优化传统的采样过程,基于视觉语言模型的训练无生成模型可以实现更好的文本-图像对齐。结合Score Distillation Sampling模块,我们的方法可以生成高质量的图像。
Feb, 2024
基于T2I扩散模型,本研究提出了一种局部感知反演(LocInv)方法,通过利用分割地图或边界框作为额外的定位先验,精确修正扩散过程中的交互关注图,使其与文本提示中的正确名词和形容词单词紧密对齐,从而实现对特定对象的细粒度图像编辑,并防止对其他区域产生不希望的改变。该方法在COCO数据集的子集上经过广泛评估,定量和定性地都取得了优秀的结果。
May, 2024
基於個性化文本到圖像模型,利用強化學習方法設計了一種新穎的框架,結合了不同目標及差分或非差分的目的函數,在生成圖像時提高了質量並保持文本對齊。
Jul, 2024
本研究解决了文本反转在使用非UNet架构时的不足,提出了一种基于视觉转换器的优化方法。通过引入奖励令牌并强制正交性,研究发现这种方法显著提升了模型对源图像的遵循度和对提示的响应度。此工作为文本反转技术的应用提供了新的思路和方法。
Aug, 2024