本文提出了一种利用降噪、去模糊等各种图像退化类型的可控视觉提示符来实现图像恢复的通用模型 ProRes,该模型可以简单调节以适应新任务,并且在控制和自适应性能方面比特定任务的方法更具竞争力。
Jun, 2023
我们提出了一种降级感知的视觉-语言模型(DA-CLIP),用于将预训练的视觉-语言模型应用于低级视觉任务,作为通用的图像恢复框架,通过集成嵌入到图像恢复网络中并进行交叉注意力,使模型能够学习高保真度的图像重建。
Oct, 2023
基于Prompt-In-Prompt学习的图像修复模块(PIP)可以通过高效、易用的方式提升现有的图像修复模型,在图像去噪、去雨、去雾、去模糊和低光增强等多个任务上展现出卓越性能,且具备可解释性、灵活性和潜在的真实世界应用潜力。
Dec, 2023
本研究提出了一种有效的基于文本提示的图像修复模型,通过任务特定的BERT进行精确理解用户指令并生成文本提示,设计了深度多头转置注意力和门控卷积模块来弥合文本提示和视觉特征之间的差距,创新地将语义提示引入到低层视觉域中,实验证明该模型在公共去噪、去雾和去雨数据集上获得了显著优越的性能,能够准确识别和去除图像的退化,无需增加模型的复杂性。
采用强大的视觉语言模型和合成降解管道,通过基于扩散模型和后验采样策略的鲁棒训练,提高图片还原质量并解决特定数据集无法恢复模糊、缩放、噪声和JPEG压缩等不同降解方式的问题。
Apr, 2024
本研究提出了利用退化对齐的语言提示来实现准确、精细和高保真度的图像恢复,通过图像恢复提示对图像的退化程度进行自动辨别,同时结合预训练的多模态大型语言模型获取与人类感知紧密相关的高级语义先验,综合比较分析表明,该方法在图像感知质量上达到了新的最先进水平,尤其是在基于无参考度量的真实场景中。
Jun, 2024
通过引入自然性导向和语义感知优化机制DiffLoss,本文旨在改善图像恢复领域中的颜色和纹理失真问题,并提高图像的语义感知恢复能力,以实现图像恢复任务和高级识别任务的连接。
基于扩散的稳定预训练的多模态控制图像恢复方法将文本级和视觉级的信息整合到去噪 U-Net 模型中,实现多模态信息的可控图像恢复,通过定性和定量的结果对比验证其在合成和真实数据集上的优越性。
Jul, 2024
MoE-DiffIR是一种创新的通用压缩图像恢复(CIR)方法,采用任务定制的扩散先验以解决现有CIR方法中的两个关键挑战:不同图像编解码器的适应性和通用性不足以及在低比特率下纹理生成能力的不足。
通过整合大型多模态语言模型(MMLMs)的通用先验知识和预训练扩散模型,提出了大型模型驱动的图像恢复框架(LMDIR),旨在处理各种退化类型并支持自动和用户引导的恢复,从而在多个评估基准上优于现有方法。