PhotoVerse: 文本到图像扩散模型的无需调整图像自定义

Sep, 2023

PhotoVerse: 文本到图像扩散模型的无需调整图像自定义

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song...

TL;DR基于用户特定概念和提示创建自定义图像的个性化文本到图像生成技术已崭露头角，但现有方法在个性化方面面临多个挑战。为了解决这些障碍，我们提出了一种创新的方法 - PhotoVerse，在文本和图像领域中融入双分支条件机制，以提供对图像生成过程的有效控制，并引入了面部身份损失作为训练期间增强身份保存的新组件。这一方法消除了测试时间调整的需要，仅依赖于目标身份的单张面部照片，大大减少了与图像生成相关的资源成本。经过单一训练阶段后，我们的方法能够在几秒钟内生成高质量的图像，产生包含各种场景和风格的多样化图像。广泛的评估表明我们的方法具有卓越性能，实现了保存身份和增强可编辑性的双重目标。

Abstract

personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times,

personalized text-to-image generation photoverse dual-branch conditioning mechanism facial identity loss high-quality images

发现论文，激发创造

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

IDAdapter: 学习混合特征以实现无需调参的文本到图像模型个性化

IDAdapter 是一种无需微调的方法，通过在生成过程中结合文本和视觉注入以及面部身份损失，从单个人脸图像中增强个性化图像生成的多样性和身份保留。通过将特定身份的多个参考图像的混合特征融入训练阶段，丰富相关身份的内容细节，指导模型生成具有比以往作品更多样的风格、表情和角度的图像。广泛的评估显示了我们方法的有效性，在生成的图像中实现了多样性和身份保真度。

Mar, 2024

基于图像和文本引导的无需调参图像定制

通过无需调整的方法，本文提出了一种同时利用文本和图像指导的图像定制方法，允许在几秒钟内精确编辑特定图像区域，通过创新的注意力混合策略，本方法在图像定制中表现优异，是一种高效的解决方案。

Mar, 2024

AvatarVerse: 高质量 & 稳定的 3D 角色创建系统

从高度定制的文本描述和姿势指导中创建富有表达力、多样化和高质量的 3D 头像是一项具有挑战性的任务。我们提出了 AvatarVerse，一个稳定的流水线，可以仅仅通过文本描述和姿势指导生成富有表达力和高质量的 3D 头像。

Aug, 2023

MasterWeaver：个性化文本 - 图像生成掌控可编辑性和身份

MasterWeaver 是一种测试时无需调优的方法，通过额外引入交叉注意力来生成个性化图像，以提高身份准确性和编辑能力，通过训练过程中的编辑方向损失来改善编辑能力，并通过构建面部增强数据集来改善身份学习的可分离性。

May, 2024

InstantStyle：文本到图像生成中面向保留风格的免费午餐

Tuning-free diffusion-based models have achieved promising results in image personalization and customization, but still face challenges in style-consistent image generation. This paper introduces InstantStyle, a framework that addresses these challenges by decoupling style and content, and injecting reference image features into style-specific blocks to achieve superior visual stylization outcomes.

Apr, 2024

基于文本条件的语境化头像生成用于零样本定制化

本文提出了一个零射击的管道，该管道可以通过捕捉用户的身份以令人愉悦的方式进行头像生成，具有个性化的图像生成特征，此外，作者使用大规模图像数据集学习人类 3D 姿态参数，克服了动作捕捉数据集的局限性。

Apr, 2023

ViCo：细节保留的视觉条件用于个性化文本到图像生成

研究以个性化图像为导向使用扩散模型生成的技术，并提出了用于快速个性化生成的插入式模块 ViCo，包括图像注意力模块和基于文本图像注意力地图的正则化方法。其不需要微调原始扩散模型的参数，但能达到目前同类模型的最佳表现。

Jun, 2023

增强身份保护对于扩散个性化的数据观点

使用大型文本到图像模型生成图像的能力已经引起了巨大的变革，但是对于特定独特或个人化的视觉概念，如您的宠物、屋内物品等，并不能被原始模型捕捉到。本文通过采用数据为中心的方法，提出了一种新颖的正则化数据集生成策略，旨在解决文本连贯性丧失和身份保留问题，进一步提高图像质量，并能生成符合输入文本提示的多样样本。实验证明，我们的数据为中心的方法在图像质量方面具有新的技术实力，在身份保留、多样性和文本对齐之间取得了最佳的平衡。

Nov, 2023

文本到图片生成的定制助手

建立基于预训练大型语言模型和扩散模型的定制助手，能够在无需微调的情况下进行自定义生成，实现与用户的更友好交互。

Dec, 2023