多模态语义感知自动着色与扩散先验
本文介绍了一个基于 T2I 模型的彩色转换模型,利用预训练的 T2I 模型的颜色先验知识,结合扩散引导器产生符合灰度图像视觉语义的潜在色调,接着使用一个灵敏度感知的 VQVAE 模型,生成与给定灰度输出像素完美对齐的彩色结果。在大量的实验中,该模型在感知质量上取得了最先进的性能。
Apr, 2023
使用图像扩散技术和细粒度文本提示的新型图像上色框架,实现了既语义合适又能提高用户对上色过程控制水平的上色输出,通过预训练的生成扩散模型进行微调并评估颜色鲜艳度,适用于颜色增强和历史图像上色。
Dec, 2023
利用预训练的扩散模型来恢复以提示文本为条件的鲜艳颜色而无需任何额外输入,具有高质量的图像重建、丰富多样的颜色、可在上下文中进行彩色显示以及对象级可控颜色化效果,超过先前的研究在视觉质量、颜色保真度和颜色化选项的多样性方面的表现。
Aug, 2023
本文介绍了 ColorDiffuser:一种预训练的文本到图像潜在扩散模型的视频上色适应方法,包括颜色传播关注和交替采样策略两种技术,有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量,实验表明该方法优于现有方法。
Jun, 2023
该论文提出了使用像素级对象语义来引导图像上色,并使用具有两个分支的分层神经网络,以便学习对象及其颜色,以提高图像上色的真实感和质量,并引入联合双边上采样层以解决边缘颜色渗漏问题。
Aug, 2018
本文提出了一种称为 GCP-Colorization 的自动上色方法,它利用先前预训练的生成对抗网络(GAN)中丰富且多样化的颜色先验知识,并利用 GAN 编码器 “检索” 匹配特征,然后通过引入特征调节到上色过程中,实现了单次前向传递产生生动颜色的效果,此外,该方法具有可解释性和可控性,并能够通过修改 GAN 潜在代码获得不同的结果。
Aug, 2021
引入了一种多模态的着色方法,通过利用预训练的稳定扩散模型,支持高度可控的交互式图像着色,解决了多种限制性问题,包括用户互动、局部着色、非自然色彩渲染、色彩变化不足和色彩溢出。
Feb, 2024