HiFi Tuner：高保真主题驱动微调扩散模型

Nov, 2023

HiFi Tuner：高保真主题驱动微调扩散模型

HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion Models

Zhonghao Wang, Wei Wei, Yang Zhao, Zhisheng Xiao, Mark Hasegawa-Johnson...

TL;DR该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力，提出了基于参数高效的微调框架，包括去噪过程和关键性倒转过程。此外，还提出了参考引导生成方法，利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明，通过仅在文本嵌入上进行微调，CLIP-T 得分提高了 3.6 分，DINO 得分提高了 9.6 分，当对所有参数进行微调时，HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分，在 DINO 得分上提高了 1.2 分，达到了新的技术水平。

Abstract

This paper explores advancements in high-fidelity personalized image generation through the utilization of pre-trained text-to-image diffusion models. While previous approaches have made significant strides in generating versatile scenes based on text descriptions and a few input images, challenges persist in maintaining the subject fidelity within the gener

high-fidelity personalized image generation text-to-image diffusion models hifi tuner algorithm parameter-efficient fine-tuning reference-guided generation

发现论文，激发创造

HiFi-123：高保真一图到三维内容生成

本文介绍了 HiFi-123，一种用于高保真度和多视角一致的 3D 生成的方法，通过引入参考引导的新视图增强技术和引导状态蒸馏损失，在优化的图像到 3D 过程中显著提高了 3D 生成的质量，取得了最先进的性能。通过全面的评估，定性和定量地证明了我们方法的有效性。

Oct, 2023

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

基于评分的生成模型的高保真图像压缩

本文通过使用扩散生成模型，将自编码器与基于分数的解码器相结合的简单但理论上有动机的两阶段方法，实现了在给定比特率时提高视觉质量，并在 FID 分数上跑赢了最先进的方法 PO-ELIC 和 HiFiC。

May, 2023

高保真人物中心的主体到图像合成

人物为中心的图像生成方法由于对常规预训练扩散进行微调导致训练不平衡，同时学习场景和人物生成会降低质量。本文提出了 Face-diffuser，一个协作生成管道，通过专门的预训练扩散模型和新颖的机制 (SNF) 消除训练不平衡并提高生成质量。

Nov, 2023

DreamTuner：主题驱动生成仅需一张图片

DreamTurner 是一种新方法，通过将粗略主题特征逐渐注入到细节中，有效地实现主题驱动的图像生成，其中引入了主题编码器以保留粗略主题特征并使用自主题注意力层来提炼目标主题的细节特征。

Dec, 2023

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Mar, 2023

利用去噪实现拼贴，修复和和谐化：使用预训练的扩散模型进行主题驱动的图像编辑

本研究提出了一种名为 PhD 的框架，它利用样例图像和文本描述来指定用户意图，通过对生成或编辑的图像进行插入、修补和协调来保证其视觉一致性，并通过实验验证其在主题驱动的图像编辑和基于参考主题的文本驱动场景生成方面均达到了最先进的性能。

Jun, 2023

HiPA: 通过高频率推广适应实现一步式文本到图像扩散模型

高频率促进适应（HiPA）是一种参数高效的方法，通过训练一步、低秩适配器来增强先进扩散模型中高频率能力的不足，使其能够在单一步骤中生成高质量图像。与渐进蒸馏相比，HiPA 在一步文本到图像生成中具有更好的性能（FID-5k 在 MS-COCO 2017 上从 37.3 降至 23.8），并具有 28.6 倍的训练加速（108.8 到 3.8 A100 GPU 天），仅需要 0.04％的训练参数（77.4 亿降至 330 万）。

Nov, 2023

基于图像和文本引导的无需调参图像定制

通过无需调整的方法，本文提出了一种同时利用文本和图像指导的图像定制方法，允许在几秒钟内精确编辑特定图像区域，通过创新的注意力混合策略，本方法在图像定制中表现优异，是一种高效的解决方案。

Mar, 2024

HiFi: 高信息注意力头用于参数有效的模型调整

本文提出了一种名为 HiFi 的参数高效的微调方法，即只微调与特定任务高度相关的信息丰富且高度相关的注意力头，该方法使用 PageRank 算法搜索显著的注意力头，实验证明 HiFi 方法在 GLUE 基准测试中获得了先进的性能。

May, 2023