Jan, 2024

Instruct-Imagen: 多模态指导下的图像生成

TL;DR本文介绍了 instruct-imagen 模型,它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示,利用自然语言将不同的模态(如文本、边缘、风格、主题等)融合在一起,使得丰富的生成意图可以以统一的格式标准化。接着,我们通过两阶段的框架,利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段,我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后,我们对不同的需要视觉语言理解的图像生成任务进行精调,每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明,instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越,并展示了对未知和更复杂任务的有希望的泛化能力。