通过稳定扩散进行高度个性化的文本嵌入以进行图像操作
提出了一种新的 text-to-image 模型的个性化方法,该方法能够通过少量输入的图像,fine-tune 预训练的 text-to-image 模型,使其能够将唯一标识符绑定到特定主题上,并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。
Aug, 2022
该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
该研究针对文本到图像个性化合成过程中的限制性问题,分析了两种主要技术(文本反转和 DreamBooth)的不足之处,并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题,通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时,采用交叉注意力图正则化项来增强对注意力图的学习,相较于基准方法,我们的方法在保护身份信息和文本对齐方面取得了显著改进。
Jun, 2024
通过改进扩散模型以生成可控高质量的深度伪造图像,并使用 Dreambooth 训练提供更真实和个性化的输出图像,该研究展示了以惊人的逼真度创建虚假的视觉内容,并可作为权力政治人物会面的可信证据。
Sep, 2023
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
通过在冻结的文本到图像模型中插入一个新初始化的动态建模模块并对其进行视频剪辑训练,我们提出了一个实用的框架,一劳永逸地使大多数现有的个性化文本到图像模型都能够生成多样化和个性化的动态图像。
Jul, 2023
使用大型文本到图像模型生成图像的能力已经引起了巨大的变革,但是对于特定独特或个人化的视觉概念,如您的宠物、屋内物品等,并不能被原始模型捕捉到。本文通过采用数据为中心的方法,提出了一种新颖的正则化数据集生成策略,旨在解决文本连贯性丧失和身份保留问题,进一步提高图像质量,并能生成符合输入文本提示的多样样本。实验证明,我们的数据为中心的方法在图像质量方面具有新的技术实力,在身份保留、多样性和文本对齐之间取得了最佳的平衡。
Nov, 2023
本文研究了文本嵌入空间,发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义,并揭示文本嵌入本身具有多样的语义潜力,通过奇异值分解来进一步揭示这一特性,这些发现对图像编辑和语义发现具有实际应用价值。
Apr, 2024