Mar, 2024

SELMA:基于自动生成数据的学习和合并特定技能的文本到图像专家

TL;DR最近的文本到图像生成模型在从文本描述中创建图像方面展示了令人印象深刻的能力。然而,这些文本到图像生成模型经常无法生成与文本输入的细节完全匹配的图像,例如错误的空间关系或缺失的对象。本文引入 SELMA:基于自动生成数据的技能特定专家学习与融合的新范式,通过在自动生成的多技能图像 - 文本数据集上对模型进行微调,改善 T2I 模型的忠实度。SELMA 首先利用 LLM 的上下文学习能力生成多个文本提示数据集,以教授不同的技能,然后根据这些提示使用 T2I 模型生成图像。接下来,SELMA 通过学习多个单技能的 LoRA(低秩自适应)专家并进行专家融合来适应新技能的 T2I 模型。我们的独立专家微调为不同的技能专门定制了多个模型,并且专家融合有助于构建一个联合的多技能 T2I 模型,能够根据不同的文本提示生成忠实的图像,并在消除不同数据集之间的知识冲突。我们在多个基准数据集(TIFA 和 DSG 分别提高了 + 2.1% 和 + 6.9%),人类偏好指标(PickScore、ImageReward 和 HPS),以及人类评价方面的实验证明,SELMA 显著提高了最先进的 T2I 扩散模型的语义对齐性和文本的忠实度。此外,通过 SELMA 自动收集的图像 - 文本对进行微调与使用真实数据进行微调的性能相当。最后,我们展示了通过弱 T2I 模型中的图像进行微调可以提高强 T2I 模型的生成质量,这表明 T2I 模型具有有希望的从弱到强的泛化能力。