Oct, 2023

莫特里卡扩散模型

TL;DR引入了 Matryoshka Diffusion Models(MDM),这是一种用于高分辨率图像和视频合成的端到端框架。通过在多个分辨率上联合去噪输入,使用嵌套 UNet 架构和从低到高分辨率的渐进式训练安排,实现了高分辨率生成的显著优化改进。在各种基准测试中展示了该方法的有效性,包括类别条件图像生成、高分辨率文本到图像以及文本到视频应用。在仅包含 1200 万张图像的 CC12M 数据集上,我们可以训练一个单一像素空间模型,分辨率达到 1024x1024 像素,并展现了强大的零样本泛化能力。