当 StyleGAN 遇上稳定扩散:个性化图像生成的 W_+ 适配器
本文通过面部区域适应和语义保真令牌优化的两个角度,将准确和语义保真的 ID 嵌入到稳定扩散模型中,以实现个性化生成,并通过实验证明与以前的方法相比,我们的结果在 ID 准确性和操作能力方面表现出更卓越的能力。
Jan, 2024
本文提出了一种新的方法,结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络,用于生成高质量,风格化的 3D 头像,并在视觉质量和多样性方面优于现有最先进的方法。
May, 2023
IDAdapter 是一种无需微调的方法,通过在生成过程中结合文本和视觉注入以及面部身份损失,从单个人脸图像中增强个性化图像生成的多样性和身份保留。通过将特定身份的多个参考图像的混合特征融入训练阶段,丰富相关身份的内容细节,指导模型生成具有比以往作品更多样的风格、表情和角度的图像。广泛的评估显示了我们方法的有效性,在生成的图像中实现了多样性和身份保真度。
Mar, 2024
我们提出了一种简单高效的数据增强训练策略,通过插入适配器层来引导扩散模型仅专注于对象身份,使得我们的模型具备控制每个生成个性化对象的位置和大小的能力,并提出了区域引导抽样技术来保持生成图像的质量和保真度。
Jun, 2023
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023
通过引入无限 - ID,将身份信息与语义解耦合的范式,提出一种在图像生成中保持身份的个性化方法。此方法通过增强车间训练,结合图像交叉注意模块和 AdaIN-mean 操作的特征交互机制,既提高了身份的保真度和语义一致性,又使得对生成图像风格的控制变得方便。对原始照片生成和风格图像生成的大量实验结果证明了该方法的优越性能。
Mar, 2024
本文介绍一种基于高度个性化文本嵌入的简单而高效的方法,通过分解 CLIP 嵌入空间来实现个性化和内容操作,并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。
Mar, 2023
通过将风格转移任务分解为风格、空间结构和语义内容三个核心元素,本研究提出了 InstantStyle-Plus,一种注重原始内容完整性同时无缝整合目标风格的方法。通过有效的、轻量级的风格注入过程,并利用先进的 InstantStyle 框架,实现风格注入。为了增强内容保护,我们使用倒置的内容潜噪声和多功能的接插件式 ControlNet 来保持原始图像的内在布局。此外,还引入了全局语义适配器以增强语义内容的保真度,并使用风格提取器作为鉴别器提供辅助风格引导。
Jun, 2024
研究提出了一种新的个性化方法,通过向先前训练好的扩散模型中添加唯一人物的面部照片和仅有 1024 个可学习参数,能够轻松地生成与任何文本提示想象的任何姿势或位置互动的惊人图像,其中使用了明星精神基础,并可以同时学习多个新身份并相互交互。
Jun, 2023
Stylized Text-to-Image Generation paper proposes StyleMaster, a framework utilizing pretrained Stable Diffusion for generating images from text prompts, overcoming previous issues with insufficient style and inconsistent semantics. It introduces a multi-source style embedder and dynamic attention adapter to provide improved style embeddings and adaptability, and evaluates the model using objective functions and denoising loss, demonstrating its superior performance in achieving variable target styles while maintaining semantic information.
May, 2024