正交微调控制文本到图像的扩散

Jun, 2023

Controlling Text-to-Image Diffusion by Orthogonal Finetuning

Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng...

TL;DR本文提出了一种基于正交细调方法（OFT）的文本到图像扩散模型，该方法能够可靠地实现下游任务，包括主题驱动生成和可控生成。

Abstract

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks

text-to-image diffusion models orthogonal finetuning downstream tasks subject-driven generation controllable generation

发现论文，激发创造

蝴蝶分解优化的参数高效正交微调

该研究论文提出了一种基于正交蝶形结构参数化的参数高效微调方法，命名为 Orthogonal Butterfly (BOFT)，并进行了大型视觉转换模型、大型语言模型和文本到图像扩散模型在不同视觉和语言下游任务中的广泛实证研究。

Nov, 2023

参数高效的准正交微调：基于 Givens 旋转方法

通过引入准 Givens 正交微调（qGOFT），本文旨在提高 Fine-tuning 中的参数效率，并增强其适应各种下游任务的能力。在实验中，我们使用不同的任务和预训练语言模型验证了我们方法的有效性。

Apr, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

TextCraftor: 您的文本编码器可以成为图像质量控制器

通过提出的 fine-tuning 方法 TextCraftor，我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器，从而在定量基准和人类评估方面实现了显著改进，并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成，同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。

Mar, 2024

HiFi Tuner：高保真主题驱动微调扩散模型

该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力，提出了基于参数高效的微调框架，包括去噪过程和关键性倒转过程。此外，还提出了参考引导生成方法，利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明，通过仅在文本嵌入上进行微调，CLIP-T 得分提高了 3.6 分，DINO 得分提高了 9.6 分，当对所有参数进行微调时，HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分，在 DINO 得分上提高了 1.2 分，达到了新的技术水平。

Nov, 2023

扩散模型模块定制的正交适应

通过引入正交适应方法，我们解决了一个名为模块化定制的新问题，旨在高效合并独立为个别概念进行微调的定制模型，从而在一幅图像中联合合成概念，同时保持保真度且不增加计算开销，这一方法在效率和身份保持方面始终优于相关基线。

Dec, 2023

AutoFT：通过 OOD 数据优化超参数进行稳健微调

AutoFT 是一种基于数据驱动的方法，用于指导基础模型的微调，以优化性能和改善泛化能力。实验证明 AutoFT 在多个分布转移任务上表现出色，显著提高了对新的异常数据的泛化能力，并在 WILDS-iWildCam 和 WILDS-FMoW 基准测试上取得了新的最佳结果。

Jan, 2024

基于超球面空间的参数高效微调用于开放词汇语义分割

使用对称参数高效微调策略在超球面空间中进行，H-CLIP 实现了开放式词汇语义分割的新 SOTA 结果，只需更新 CLIP 总参数的约 4%。

May, 2024

基于直接一致性优化的文本到图像个性化

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标，称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力，并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后，我们强调必须使用详尽的标题作为参考图像，以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面（this https URL）中找到。

Feb, 2024

FT-Shield：一种针对文本到图像扩散模型的未经授权微调的水印

基于潜在扩散模型的文本生成图像模型通过语言提示展现出了出色的能力，但由于版权侵犯的普遍担忧，本文提出了一种针对文本生成图像模型的水印方法 FT-Shield，以帮助检测侵权的情况。经过全面实验证明了 FT-Shield 的有效性。

Oct, 2023