AAAIAug, 2022

Frido: 复杂场景图像综合的特征金字塔扩散

TL;DR本文介绍一种特征金字塔扩散模型 Frido,通过多尺度的粗到细的去噪过程将输入图像分解为尺度依赖型向量量化特征,并在图像输出时进行粗到细的门控操作以产生图像输出。通过在多尺度表示学习阶段利用其他输入条件如文本、场景图或图像布局,Frido 还可以用于条件或跨模态图像合成。作者在文中对各种无条件和有条件的图像合成任务进行了广泛的实验,包括从文本到图像的合成、布局到图像、场景图到图像以及标签到图像等,取得了五个基准测试中的最新的 FID 分数,包括 COCO 和 OpenImages 上的布局到图像、COCO 和 Visual Genome 上的场景图到图像以及 COCO 上的标签到图像。