多模态语义感知自动着色与扩散先验

Apr, 2024

多模态语义感知自动着色与扩散先验

Multimodal Semantic-Aware Automatic Colorization with Diffusion Prior

Han Wang, Xinning Chai, Yiwen Wang, Yuhong Zhang, Rong Xie...

TL;DR通过使用扩散先验的生成能力，结合亮度条件指导和多模式高级语义先验，本文提出了一种自动上色流程，能够合成饱和且具有合理语义的颜色，改善了自动上色方法中的语义和色彩的准确性问题。

Abstract

colorizing grayscale images offers an engaging visual experience. Existing automatic colorization methods often fail to generate satisfactory results due to incorrect →

colorizing grayscale images automatic colorization diffusion prior semantic colors unsaturated colors

发现论文，激发创造

基于 Piggyback 模型的改进扩散图像上色

本文介绍了一个基于 T2I 模型的彩色转换模型，利用预训练的 T2I 模型的颜色先验知识，结合扩散引导器产生符合灰度图像视觉语义的潜在色调，接着使用一个灵敏度感知的 VQVAE 模型，生成与给定灰度输出像素完美对齐的彩色结果。在大量的实验中，该模型在感知质量上取得了最先进的性能。

Apr, 2023

扩散色彩：带文本引导的图像上色

使用图像扩散技术和细粒度文本提示的新型图像上色框架，实现了既语义合适又能提高用户对上色过程控制水平的上色输出，通过预训练的生成扩散模型进行微调并评估颜色鲜艳度，适用于颜色增强和历史图像上色。

Dec, 2023

DiffColor：使用扩散模型进行高保真度文本引导图像上色

利用预训练的扩散模型来恢复以提示文本为条件的鲜艳颜色而无需任何额外输入，具有高质量的图像重建、丰富多样的颜色、可在上下文中进行彩色显示以及对象级可控颜色化效果，超过先前的研究在视觉质量、颜色保真度和颜色化选项的多样性方面的表现。

Aug, 2023

潜在着色：基于潜在扩散的说话人视频着色

通过利用经过优化的潜在扩散模型的强大能力以及具备时间一致性机制，我们可以改善自动视频上色的性能，解决时间不一致性的挑战。

May, 2024

预训练文本转图像扩散模型进行视频上色

本文介绍了 ColorDiffuser：一种预训练的文本到图像潜在扩散模型的视频上色适应方法，包括颜色传播关注和交替采样策略两种技术，有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量，实验表明该方法优于现有方法。

Jun, 2023

像素化的语义着色

使用卷积神经网络、自回归模型以及像素化对象语义来引导图像上色，结果在 PASCAL VOC2012 和 COCO-stuff 上表现更好。

Jan, 2019

通过生成对抗网络实现无监督多样化着色

本文介绍了一种使用条件生成式对抗网络解决无监督多样化上色问题的方法，并在 LSUN 卧室数据集上表现出高竞争性和高可信度的着色结果。

Feb, 2017

基于像素级语义的图像自动上色

该论文提出了使用像素级对象语义来引导图像上色，并使用具有两个分支的分层神经网络，以便学习对象及其颜色，以提高图像上色的真实感和质量，并引入联合双边上采样层以解决边缘颜色渗漏问题。

Aug, 2018

应用生成式色彩先验实现鲜艳多样的图像上色

本文提出了一种称为 GCP-Colorization 的自动上色方法，它利用先前预训练的生成对抗网络（GAN）中丰富且多样化的颜色先验知识，并利用 GAN 编码器 “检索” 匹配特征，然后通过引入特征调节到上色过程中，实现了单次前向传递产生生动颜色的效果，此外，该方法具有可解释性和可控性，并能够通过修改 GAN 潜在代码获得不同的结果。

Aug, 2021

控制色彩：多模态扩散交互式图像着色

引入了一种多模态的着色方法，通过利用预训练的稳定扩散模型，支持高度可控的交互式图像着色，解决了多种限制性问题，包括用户互动、局部着色、非自然色彩渲染、色彩变化不足和色彩溢出。

Feb, 2024