AAAIJul, 2024

可变频率扩散模型用于多功能文本引导的图像至图像翻译

TL;DR本研究提出了一种基于频域角度的频率控制扩散模型(FCDiffusion),用于文本导向的图像之间转换,通过离散余弦变换滤波模块将源图像的潜在特征在 DCT 域中进行滤波,从而产生带有不同 DCT 频谱波段的过滤图像特征,作为预训练的潜在扩散模型的不同控制信号来连接源图像和生成的图像。与相关方法不同,FCDiffusion 建立了一种统一的文本导向图像转换框架,适用于各种图像转换任务,仅通过在推理时在不同频率控制分支之间切换即可。通过广泛的定性和定量实验,我们证明了我们的方法在文本导向的图像转换中的有效性和优越性。