May, 2023

在统一的视觉模态上将扩散概率场扩展至高分辨率

TL;DR提出了一种新的模型,该模型结合了以视图为基础的采样算法和额外的指导信息,例如文本描述,用于细节结构学习,使得模型能够扩展到高分辨率数据,统一多种模态下的视觉内容生成。实验结果证明了模型的有效性,以及其作为可伸缩性模态统一视觉内容生成的基础框架的潜力。