潜在着色:基于潜在扩散的说话人视频着色
本文介绍了 ColorDiffuser:一种预训练的文本到图像潜在扩散模型的视频上色适应方法,包括颜色传播关注和交替采样策略两种技术,有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量,实验表明该方法优于现有方法。
Jun, 2023
使用图像扩散技术和细粒度文本提示的新型图像上色框架,实现了既语义合适又能提高用户对上色过程控制水平的上色输出,通过预训练的生成扩散模型进行微调并评估颜色鲜艳度,适用于颜色增强和历史图像上色。
Dec, 2023
通过使用扩散先验的生成能力,结合亮度条件指导和多模式高级语义先验,本文提出了一种自动上色流程,能够合成饱和且具有合理语义的颜色,改善了自动上色方法中的语义和色彩的准确性问题。
Apr, 2024
提出了首个端到端网络来完成基于示例的视频着色,在保持参考风格的同时实现了时间上的一致性。通过引入循环框架来统一语义对应和颜色传递步骤,利用提供的参考图像来引导每一帧的着色,减少了积累的传播误差,并通过时间一致性损失进一步强制协同着色历史,最终生成稳定性良好且逼真的视频,实验表明,与现有技术相比,在定量和定性方面都具备优越性。
Jun, 2019
利用预训练的扩散模型来恢复以提示文本为条件的鲜艳颜色而无需任何额外输入,具有高质量的图像重建、丰富多样的颜色、可在上下文中进行彩色显示以及对象级可控颜色化效果,超过先前的研究在视觉质量、颜色保真度和颜色化选项的多样性方面的表现。
Aug, 2023
本文介绍了一个基于 T2I 模型的彩色转换模型,利用预训练的 T2I 模型的颜色先验知识,结合扩散引导器产生符合灰度图像视觉语义的潜在色调,接着使用一个灵敏度感知的 VQVAE 模型,生成与给定灰度输出像素完美对齐的彩色结果。在大量的实验中,该模型在感知质量上取得了最先进的性能。
Apr, 2023
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
该研究提出了一种新的视频着色框架,它将语义对应引入自动视频着色中以保持长程一致性,通过自动着色参考图像来监督整个着色过程,并且引入了语义对应网络和图像着色网络以保持临近帧和长期帧的时间一致性,实验证明该方法在维持时序一致性方面优于其他方法。
May, 2023
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022