正交微调控制文本到图像的扩散
该研究论文提出了一种基于正交蝶形结构参数化的参数高效微调方法,命名为 Orthogonal Butterfly (BOFT),并进行了大型视觉转换模型、大型语言模型和文本到图像扩散模型在不同视觉和语言下游任务中的广泛实证研究。
Nov, 2023
通过引入准 Givens 正交微调(qGOFT),本文旨在提高 Fine-tuning 中的参数效率,并增强其适应各种下游任务的能力。在实验中,我们使用不同的任务和预训练语言模型验证了我们方法的有效性。
Apr, 2024
通过提出的 fine-tuning 方法 TextCraftor,我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器,从而在定量基准和人类评估方面实现了显著改进,并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成,同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。
Mar, 2024
该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力,提出了基于参数高效的微调框架,包括去噪过程和关键性倒转过程。此外,还提出了参考引导生成方法,利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明,通过仅在文本嵌入上进行微调,CLIP-T 得分提高了 3.6 分,DINO 得分提高了 9.6 分,当对所有参数进行微调时,HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分,在 DINO 得分上提高了 1.2 分,达到了新的技术水平。
Nov, 2023
通过引入正交适应方法,我们解决了一个名为模块化定制的新问题,旨在高效合并独立为个别概念进行微调的定制模型,从而在一幅图像中联合合成概念,同时保持保真度且不增加计算开销,这一方法在效率和身份保持方面始终优于相关基线。
Dec, 2023
AutoFT 是一种基于数据驱动的方法,用于指导基础模型的微调,以优化性能和改善泛化能力。实验证明 AutoFT 在多个分布转移任务上表现出色,显著提高了对新的异常数据的泛化能力,并在 WILDS-iWildCam 和 WILDS-FMoW 基准测试上取得了新的最佳结果。
Jan, 2024
使用对称参数高效微调策略在超球面空间中进行,H-CLIP 实现了开放式词汇语义分割的新 SOTA 结果,只需更新 CLIP 总参数的约 4%。
May, 2024
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标,称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
基于潜在扩散模型的文本生成图像模型通过语言提示展现出了出色的能力,但由于版权侵犯的普遍担忧,本文提出了一种针对文本生成图像模型的水印方法 FT-Shield,以帮助检测侵权的情况。经过全面实验证明了 FT-Shield 的有效性。
Oct, 2023