一种基于训练无关的人物图像生成方法

May, 2023

一种基于训练无关的人物图像生成方法

A Method for Training-free Person Image Picture Generation

Tianyu Chen

TL;DR提出了一种名为 Character Image Feature Encoder 的模型，它能够通过简单地提供角色图片来生成符合预期的人物角色图像，而不需要对每个个体 / 动画角色图像进行训练，可以方便地将其集成到现有的生成模型中。

Abstract

The current state-of-the-art diffusion model has demonstrated excellent results in generating images. However, the images are monotonous and are mostly the result of the distribution of images of people in the training set, making it challenging to generate multiple images for a fixed

diffusion model character image feature encoder image generation fine-tuning image-to-image model

发现论文，激发创造

个性化扩散的身份编码器

论文探讨了使用编码器和扩散生成器来进行个性化图像生成的方法，并比较了该方法与 Fine-tuning 等已有方法的性能，实验结果表明，该方法在图像生成和重建上表现更好，且适用于更多应用场景。

Apr, 2023

使用双编码器改进场景文本编辑的扩散模型

DIFFSTE 是一个改善预训练扩散模型性能的双编码器设计框架，通过指令调整训练，实现了场景文本编辑中正确文本渲染和风格控制的任务，使其具有零 - shot 泛化能力。

Apr, 2023

使用文本到图像扩散模型驯服编码器，实现零微调图像个性化定制

本文提出了一种基于编码器和文本到图像合成模型的方法，用于生成用户定制的对象图像，经过实验验证表明该方法能够产生具有魅力的高质量、多样化和逼真度高的图像。

Apr, 2023

TextCraftor: 您的文本编码器可以成为图像质量控制器

通过提出的 fine-tuning 方法 TextCraftor，我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器，从而在定量基准和人类评估方面实现了显著改进，并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成，同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。

Mar, 2024

Cartoondiff: 使用扩散转换模型进行无需训练的卡通图像生成

本文介绍了 CartoonDiff，一种基于扩散 Transformer 模型的无需训练的采样方法，用于生成图像卡通化效果。通过将扩散模型的逆向过程分解为语义生成和细节生成阶段，并在特定去噪步骤中对噪声图像的高频信号进行归一化，实现了图像卡通化过程。CartoonDiff 不需要任何额外的参考图像，复杂的模型设计或繁琐的参数调整。广泛的实验结果表明了 CartoonDiff 的强大能力。

Sep, 2023

从扩散模型获取训练数据

本文研究了图像扩散模型，如 DALL-E 2，Imagen 和 Stable Diffusion，发现它们从训练数据中记忆单个图像并在生成时发射此类图像，总结了此类模型的隐私风险和影响隐私保护培训的新进展。

Jan, 2023

基于编码器的文本到图像个性化的 LCM-Lookahead

通过使用快速采样方法以及对编码器进行个性化训练，本研究探索了将快速采样方法用于文本到图像模型个性化，并通过预测身份目标让模型在保持多样性和对齐性的同时提高身份准确性的潜力。同时，研究还发现注意力共享机制和一致的数据生成对于编码器训练都有益处。

Apr, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

弹性扩散：无需训练的任意尺寸图像生成

通过 ElasticDiffusion 这种新的无需训练的解码方法，将预训练的文本到图像扩散模型能够生成不同尺寸的图像。

Nov, 2023

IDAdapter: 学习混合特征以实现无需调参的文本到图像模型个性化

IDAdapter 是一种无需微调的方法，通过在生成过程中结合文本和视觉注入以及面部身份损失，从单个人脸图像中增强个性化图像生成的多样性和身份保留。通过将特定身份的多个参考图像的混合特征融入训练阶段，丰富相关身份的内容细节，指导模型生成具有比以往作品更多样的风格、表情和角度的图像。广泛的评估显示了我们方法的有效性，在生成的图像中实现了多样性和身份保真度。

Mar, 2024