CoRe:用于文本到图像个性化的上下文正则化文本嵌入学习
提出了一种名为InstantBooth的方法,该方法通过学习图像概念的文本标记和适配层,无需进行测试时间微调即可实现文本引导图像个性化生成,并在语言-图像对齐、图像保真度和身份保护等方面获得了竞争性结果,速度快100倍。
Apr, 2023
本文探讨了一种依赖于时间和空间(U-Net层)去噪的新型文本调节空间,并通过优化小型神经映射器,将整个个性化概念表示为学习的映射器的参数,从而在不调整生成模型本身任何参数的情况下,用单个训练模型控制构成、编辑和可编辑性,从而提高了收敛性和视觉保真度。
May, 2023
本文提出了一种基于编码器的文本到图像(T2I)个性化生成方法,使用一种对领域不敏感的对比度正则化技术来实现目标概念特征的高保真度,并将预测的嵌入值保持在可编辑的潜在空间区域,从而实现了基于CLIP(一种联合学习图像和文本的新型表示方法)标记的最短距离。实验结果证明了我们方法的有效性和学习标记比未规范化模型预测的标记更具语义性的优点,并且比以前的方法更加灵活,表现出最先进的性能。
Jul, 2023
使用大型文本到图像模型生成图像的能力已经引起了巨大的变革,但是对于特定独特或个人化的视觉概念,如您的宠物、屋内物品等,并不能被原始模型捕捉到。本文通过采用数据为中心的方法,提出了一种新颖的正则化数据集生成策略,旨在解决文本连贯性丧失和身份保留问题,进一步提高图像质量,并能生成符合输入文本提示的多样样本。实验证明,我们的数据为中心的方法在图像质量方面具有新的技术实力,在身份保留、多样性和文本对齐之间取得了最佳的平衡。
Nov, 2023
通过CatVersion方法,在扩散模型的文本编码器的特征密集空间上连接嵌入,通过学习个性化概念与其基准类之间的差距来最大限度地保留先前知识,从而实现文本到图像的个性化转换,并利用改进的CLIP图像对齐得分来量化结果,展现出更忠实和更强大的编辑效果。
Nov, 2023
通过初始化方法的研究,我们提出了一种称为Cross Initialization的新型初始化方法,它明显缩小了初始嵌入和学习嵌入之间的差距,通过与正则化项相结合,有效提高了可编辑性,并在编辑人脸表情方面取得了成功,同时实现了较快的图像捕获速度和较好的重建和可编辑性。
Dec, 2023
该研究针对文本到图像个性化合成过程中的限制性问题,分析了两种主要技术(文本反转和DreamBooth)的不足之处,并引入了一种名为AttnDreamBooth的新方法来解决这些问题,通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时,采用交叉注意力图正则化项来增强对注意力图的学习,相较于基准方法,我们的方法在保护身份信息和文本对齐方面取得了显著改进。
Jun, 2024
我们提出了一种新的后处理算法AlignIT,该算法将感兴趣的概念的键和值与输入提示中的所有其他标记的键和值保持不变,从而解决了现有方法存在的问题,并显著提高了与输入提示的对齐性能。
Jun, 2024
我们提出了一种有效的方法来在文本子空间中探索目标嵌入,借鉴了自我表现性特性,并提出了一种有效的选择策略来确定文本子空间的基向量。实验评估表明,所学习的嵌入不仅能够忠实地重构输入图像,还能显著改善其与新的输入文本提示的对齐性。此外,我们观察到在文本子空间中优化能够显著提高对初始词的鲁棒性,从而放宽了用户需要输入最相关初始词的约束。我们的方法为个性化文本到图像生成的更高效的表示学习打开了大门。
Jun, 2024
本研究解决了文本到图像模型在仅使用单个参考图像时,个性化生成效果下降的问题。通过提出选择性微调策略和三种关键技术,显著提升了个性化性能,研究结果表明该方法能够高效生成高质量、多样化的图像,且大幅降低存储和内存需求。
Sep, 2024