Feb, 2024
跨视角掩蔽扩散变压器用于人物图像合成
Cross-view Masked Diffusion Transformers for Person Image Synthesis
TL;DRX-MDPT是一种新颖的扩散模型,用于姿势引导的人体图像生成,采用了基于掩模的扩散变换器,通过对潜在补丁的操作,与现有作品中常用的Unet结构有所不同。该模型包括三个关键模块:去噪扩散变换器,将条件整合成单一向量进行扩散过程的聚合网络,以及通过参考图像中的语义信息增强表示学习的掩模交叉预测模块。X-MDPT在更大模型下展示了可扩展性,在DeepFashion数据集上优于现有方法,并在训练参数、训练时间和推理速度方面表现出高效性。我们的33MB紧凑模型在FID为7.42时超过了使用11倍少参数的先前Unet潜在扩散方法(FID 8.07)。我们的最佳模型相比像素级扩散使用了2/3的参数,并实现了5.43倍的更快推理。