控制色彩:多模态扩散交互式图像着色
使用图像扩散技术和细粒度文本提示的新型图像上色框架,实现了既语义合适又能提高用户对上色过程控制水平的上色输出,通过预训练的生成扩散模型进行微调并评估颜色鲜艳度,适用于颜色增强和历史图像上色。
Dec, 2023
利用预训练的扩散模型来恢复以提示文本为条件的鲜艳颜色而无需任何额外输入,具有高质量的图像重建、丰富多样的颜色、可在上下文中进行彩色显示以及对象级可控颜色化效果,超过先前的研究在视觉质量、颜色保真度和颜色化选项的多样性方面的表现。
Aug, 2023
通过使用扩散先验的生成能力,结合亮度条件指导和多模式高级语义先验,本文提出了一种自动上色流程,能够合成饱和且具有合理语义的颜色,改善了自动上色方法中的语义和色彩的准确性问题。
Apr, 2024
本文介绍了 ColorDiffuser:一种预训练的文本到图像潜在扩散模型的视频上色适应方法,包括颜色传播关注和交替采样策略两种技术,有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量,实验表明该方法优于现有方法。
Jun, 2023
本文介绍了一种新的深度上色方法,它允许同时输入全局和局部输入来更好地控制输出的上色图像,并设计了适当的损失函数来区分输入数据、全局输入和局部输入的影响。此外,本文还提出了一个全局颜色主题推荐系统来帮助用户确定全局输入,实验结果显示我们的方法能够更好地控制上色图像并生成最先进的结果。
Jan, 2018
本文介绍了一种新的简单而实用的任务设置:局部控制,它通过用户定义的图像条件在特定的局部区域进行控制,其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法,利用去噪过程中噪声潜变量和参数的更新,在交互注意力图中促进非控制区域的概念生成。此外,我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明,我们的方法可以在局部控制条件下合成出高质量的图像。
Dec, 2023
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。
Nov, 2022
本文介绍了一个基于 T2I 模型的彩色转换模型,利用预训练的 T2I 模型的颜色先验知识,结合扩散引导器产生符合灰度图像视觉语义的潜在色调,接着使用一个灵敏度感知的 VQVAE 模型,生成与给定灰度输出像素完美对齐的彩色结果。在大量的实验中,该模型在感知质量上取得了最先进的性能。
Apr, 2023
该论文提出了第一个统一框架 UniColor,支持多种颜色模态的着色,包括无条件和有条件的模态,如笔画、示例、文本以及它们的混合。该模型使用了 CLIP-based 方法将多模态条件转换为提示点的公共表示形式,并提出了一种 Transformer-based 网络结构,生成多样化且高质量的着色结果。
Sep, 2022
我们提出了一个自动上色的框架,具有迭代编辑和修改的能力,并利用一个想象模块通过理解灰度图像中的内容,利用预训练图像生成模型生成包含相同内容的多个图像用于上色参考,模仿人类专家的过程;我们使用参考修正模块来选择最佳的参考合成;与大多数现有的自动上色算法不同,我们的框架允许对上色结果进行迭代和局部修改,因为我们明确地对上色样本进行建模;大量实验证明了我们的框架在可编辑性和灵活性方面优于现有的自动上色算法。
Apr, 2024