- DreamBench++:个性化图像生成的人工智能基准测试
DreamBench++ 是一个自动化的、与人类对齐的多模态 GPT 模型,通过系统地设计提示,从而在个性化图片生成中达到更高的人类对齐评估,帮助推动社区的创新发现。
- 个性化矫正流:锚定分类器指导
利用分类器指导,我们研究了个性化图像生成的问题,并通过基于修正流框架的解决方法,实现了灵活个性化生成结果。
- FreeTuner:无需训练的扩散式任意主题和风格
FreeTuner 是一种灵活的、无需训练的组合个性化方法,可以以任意用户提供的主题和风格生成图像,通过分解生成过程为两个阶段来有效缓解概念纠缠,利用扩散模型中的中间特征进行主题概念表达,并引入风格指导以确保生成的图像既保留了主题结构又呈现 - MasterWeaver:个性化文本 - 图像生成掌控可编辑性和身份
MasterWeaver 是一种测试时无需调优的方法,通过额外引入交叉注意力来生成个性化图像,以提高身份准确性和编辑能力,通过训练过程中的编辑方向损失来改善编辑能力,并通过构建面部增强数据集来改善身份学习的可分离性。
- InstantFamily:用于零样本多标识图像生成的掩码注意力
这篇论文介绍了一种名为 InstantFamily 的方法,利用新颖的遮罩交叉注意机制和多模态嵌入层实现了零样本多身份图像生成,同时解决了已知的多身份生成问题,并在单一身份和多身份保留方面达到了最先进的性能水平。
- MoMA: 快速个性化图像生成的多模式 LLM 适配器
本篇论文介绍了 MoMA:一种基于开放词汇、无需训练的个性化图像模型,具备灵活的零样本能力。利用开源的多模态大型语言模型(MLLM),我们训练 MoMA 同时担任特征提取器和生成器的双重角色。该模型通过引入一种新颖的自注意力快捷方法,高效地 - MM-Diff: 多模态条件融合的高保真图像个性化
为了提高主题准确性,我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架,能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入,而通过设计精良的多模态交叉注意 - 快速个性化的文本到图像合成与注意力注入
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了 - SeFi-IDE:面向个性化扩散生成的语义保真身份嵌入
本文通过面部区域适应和语义保真令牌优化的两个角度,将准确和语义保真的 ID 嵌入到稳定扩散模型中,以实现个性化生成,并通过实验证明与以前的方法相比,我们的结果在 ID 准确性和操作能力方面表现出更卓越的能力。
- PortraitBooth: 快速身份保留个性化的多用途肖像模型
PortraitBooth 是一种高效、鲁棒的个性化图像生成方法,使用人脸识别模型的主题嵌入来生成个性化图像,避免了费时的微调过程,保持了原始图像的身份,并通过情感感知的跨注意力控制实现了生成图像中多样的面部表情,支持基于文本的表情编辑。
- FaceChain:一个保留身份的肖像生成平台
FaceChain 是一个个性化肖像生成框架,结合一系列定制图像生成模型和丰富的与人脸相关的感知理解模型,通过只有少量肖像图像作为输入,解决了现有解决方案中产生真实细节的漏洞和包含扭曲、模糊或损坏区域的合成人脸问题。
- 主题扩散:无需测试时间微调的开放领域个性化文本到图像生成
我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集 - 个性化扩散的身份编码器
论文探讨了使用编码器和扩散生成器来进行个性化图像生成的方法,并比较了该方法与 Fine-tuning 等已有方法的性能,实验结果表明,该方法在图像生成和重建上表现更好,且适用于更多应用场景。
- InstantBooth: 个性化文本图像生成(无测试时间微调)
提出了一种名为 InstantBooth 的方法,该方法通过学习图像概念的文本标记和适配层,无需进行测试时间微调即可实现文本引导图像个性化生成,并在语言 - 图像对齐、图像保真度和身份保护等方面获得了竞争性结果,速度快 100 倍。