AnyMaker: 通过解耦的双级 ID 注入实现零样本通用对象定制化
研究对文本到图像的生成进行了进一步的提升,在保证高效率、有辨识度的身份和灵活文本控制性等要求的前提下,提出了 PhotoMaker 方法。通过将输入的身份图像编码为堆叠的 ID 嵌入来维护身份信息,该嵌入不仅可以全面地表达相同输入身份的特征,还可以适应不同身份的特征进行融合,从而实现更具吸引力和实用价值的应用。
Dec, 2023
AnyDoor 是一种基于扩散的图像生成器,它能够以和谐的方式将目标对象传送到用户指定的位置。通过使用细节特征来补充身份特征,该模型能够在推理阶段对不同的对象 - 场景组合进行普适化。通过借鉴视频数据集的知识,该方法在现实世界的虚拟试穿和物体移动等应用中展现出优越性和巨大潜力。
Jul, 2023
加入定制化物体到图像生成中,我们引入了 CustomNet,一个新的物体定制方法,通过显式地引入 3D 新视角合成能力来调整空间位置关系和视角,以有效地保留物体的身份信息,并通过文本描述或用户定义的图像实现位置和背景的灵活控制,从而实现了对视角、位置和背景的零测试时间优化的控制,并且增强了身份保护性和生成了多样而和谐的输出。
Oct, 2023
我们介绍了基于 InstantID 的个性化图像合成方法,通过应用 IdentityNet 模型,使用单张面部图像实现各种风格的图像个性化,同时确保高保真度,并与 SD1.5 和 SDXL 等常用预训练文本到图像扩散模型无缝集成,具有卓越的性能和高效性,在重视身份保护的实际应用中极具益处。
Jan, 2024
本文提出了一种基于编码器和文本到图像合成模型的方法,用于生成用户定制的对象图像,经过实验验证表明该方法能够产生具有魅力的高质量、多样化和逼真度高的图像。
Apr, 2023
通过引入无限 - ID,将身份信息与语义解耦合的范式,提出一种在图像生成中保持身份的个性化方法。此方法通过增强车间训练,结合图像交叉注意模块和 AdaIN-mean 操作的特征交互机制,既提高了身份的保真度和语义一致性,又使得对生成图像风格的控制变得方便。对原始照片生成和风格图像生成的大量实验结果证明了该方法的优越性能。
Mar, 2024
提供单个人脸参考图像,无需进一步训练,ID-Animator 是一种零样本的人类视频生成方法,具有个性化视频生成能力。该方法采用面部适配器从可学习的面部潜在查询中编码与身份相关的嵌入,通过 ID 导向的数据集构建技术和随机面部参考训练方法,提高模型在身份特定视频生成方面的准确性和泛化能力,实验结果表明 ID-Animator 比之前的模型更优秀,适用于对身份保护要求很高的实际视频生成应用。
Apr, 2024
利用预训练的文本图像模型通过 DDIM 图像反转提取 ID 图像的传播域表示,不需要额外的图像编码器,然后通过精心设计的轻量级注意力适配器将提取的 ID 提示特征和文本图像模型的中间特征有效地嵌入到基础文本图像模型中,从而为 ID 定制生成和模型规模上提出的 Inv-Adapter 在 ID 忠实度、生成忠诚度、速度和训练参数等方面进行了广泛的实验评估表明其具有很高的竞争力。
Jun, 2024
本研究在文本转图像生成(T2I)中关注一项新的任务,即动作定制,提出了基于反演的 Action-Disentangled Identifier(ADI)方法来学习动作特定的识别器,克服了现有方法中低层特征偏好和高层特征纠缠的问题,实现了优于现有基准的动作定制 T2I 生成。
Nov, 2023
使用大型文本到图像模型生成图像的能力已经引起了巨大的变革,但是对于特定独特或个人化的视觉概念,如您的宠物、屋内物品等,并不能被原始模型捕捉到。本文通过采用数据为中心的方法,提出了一种新颖的正则化数据集生成策略,旨在解决文本连贯性丧失和身份保留问题,进一步提高图像质量,并能生成符合输入文本提示的多样样本。实验证明,我们的数据为中心的方法在图像质量方面具有新的技术实力,在身份保留、多样性和文本对齐之间取得了最佳的平衡。
Nov, 2023