Dec, 2023

多模态提示感知器:全能图像恢复的适应性、普适性和保真度

TL;DR本研究介绍了 MPerceiver:一种新颖的多模态提示学习方法,利用稳定扩散先验增强了全方位图像修复的适应性、普适性和保真性。通过开发双分支模块,该方法掌握了两种类型的稳定扩散提示:文本提示用于整体表示和视觉提示用于多尺度细节表示。MPerceiver 使用 CLIP 图像编码器的退化预测动态调整这两种提示,从而能够对不同的未知退化进行自适应响应。此外,插件细节优化模块通过直接的编码器到解码器信息转换提高了修复保真性。实验证明,MPerceiver 在全方位图像修复的 9 个任务上经过多任务预训练,优于大多数专门任务的特定方法。在低级视觉方面,MPerceiver 表现出出色的零样本和少样本能力。在 16 个图像修复任务和 26 个基准测试上的大量实验证实了 MPerceiver 在适应性、普适性和保真性方面的优越性。