Continual Diffusion:使用 C-LoRA 实现文本到图像的持续个性化
自定义生成技术在不同背景下合成特定概念的技术已经取得了显著进展。多概念自定义是该领域内的一项具有挑战性的任务。现有方法往往依赖于训练多个低秩适应矩阵(LoRA)的融合矩阵,将各种概念合并到单个图像中。然而,我们发现这种直接方法面临两个主要挑战:1)概念混淆,即模型无法保留独特的个体特征,2)概念消失,即模型无法生成预期的主题。为了解决这些问题,我们引入了一种名为 LoRA-Composer 的无需训练的框架,用于无缝集成多个 LoRA,从而增强生成图像中不同概念之间的和谐。LoRA-Composer 通过概念注入约束来解决概念消失问题,通过扩展交叉注意机制增强概念可见性。为了对抗概念混淆,引入了概念隔离约束,对自注意力计算进行了改进。此外,提出了潜在重新初始化方法来有效激发指定区域内的特定概念潜在性。我们的广泛测试显示,与标准基线方法相比,LoRA-Composer 的性能有明显的提升,特别是在消除基于图像的条件(如边缘检测或姿势估计)时。代码发布在此 https URL
Mar, 2024
本文提出了一种名为 Mix-of-Show 的新框架,它采用嵌入分解的 LoRA (ED-LoRA) 和梯度融合来处理多客户端单一概念调整和中心节点概念融合中的概念冲突和身份丢失问题,同时引入区域可控采样以扩展空间可控采样以解决多概念抽样中的属性绑定和缺失物体问题。实验证明 Mix-of-Show 能够高度还原多种自定义概念,包括文字、物体和场景。
May, 2023
我们引入了一种名为 STAMINA 的新方法,它由低秩注意蒙版适配器和定制的 MLP 令牌组成,通过用低秩 MLP 参数化的可学习硬注意蒙版来增强 LoRA 在顺序概念学习中的鲁棒微调性能,从而实现精确、可扩展的稀疏适应学习。我们展示了 STAMINA 在 50 个概念基准测试中超越了先前最先进的文本到图像连续定制设置,在地标和人脸上没有存储的重播数据。此外,我们还将我们的方法扩展到图像分类的持续学习设置中,证明了我们在这一标准基准测试中的卓越性能转化。
Nov, 2023
个性化和风格化在文字到图像的任务中都是指导预训练扩散模型分析用户引入的新概念,并将其融入预期的风格。我们提出了基于块级低秩适应(LoRA)的精细调整方法,用于不同块的 SD 进行细粒度的调整,能够生成忠实于输入提示和目标身份且具有所需风格的图像。广泛实验证明了所提出方法的有效性。
Mar, 2024
通过更新多个 LoRA 模型的注意力图并利用它们创建语义掩码来解决在图像生成中多个概念的平滑融合问题,并成功地合并多个概念或样式。
Mar, 2024
本文主要研究了基于预训练转换器的领域增量学习问题,在课题涉及的下游数据上,该方法表现出了令人印象深刻的性能,但当数据特征发生变化时,性能会下降;通过研究 Low Rank Adaptation(LoRA)在领域增量学习中的适用性,我们的基于 LoRA 的解决方案 CoLoR 在一系列领域增量学习基准测试中取得了最先进的性能,同时仍然与基于提示调整的方法一样参数高效。
Nov, 2023
通过 L2DM 框架,本文研究了文本到图像生成模型中的知识遗忘和语义忽视问题,通过任务感知内存增强模块、弹性概念精馏模块、概念关注艺术家模块和正交关注模块,生成更准确、更忠实的图像。
Sep, 2023
我们提出了一种新颖的方法,利用低秩适应和任务算术,不断训练基于 Transformer 的视觉模型,绕过灾难性遗忘问题并减少训练计算需求。在每个类别仅使用 10 个样本的小内存的帮助下,我们的方法实现了接近于完整微调的性能,并通过严格的消融实验证明了我们方法的优势。
Nov, 2023