潜在着色：基于潜在扩散的说话人视频着色

May, 2024

潜在着色：基于潜在扩散的说话人视频着色

LatentColorization: Latent Diffusion-Based Speaker Video Colorization

Rory Ward, Dan Bigioi, Shubhajit Basak, John G. Breslin, Peter Corcoran

TL;DR通过利用经过优化的潜在扩散模型的强大能力以及具备时间一致性机制，我们可以改善自动视频上色的性能，解决时间不一致性的挑战。

Abstract

While current research predominantly focuses on image-based colorization, the domain of video-based colorization remains relatively unexplored. Most existing video colorization techniques operate on a frame-by-frame basis, often overlooking the critical aspect of →

video-based colorization temporal coherence latent diffusion model image quality metrics automatic video colorization

发现论文，激发创造

预训练文本转图像扩散模型进行视频上色

本文介绍了 ColorDiffuser：一种预训练的文本到图像潜在扩散模型的视频上色适应方法，包括颜色传播关注和交替采样策略两种技术，有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量，实验表明该方法优于现有方法。

Jun, 2023

扩散色彩：带文本引导的图像上色

使用图像扩散技术和细粒度文本提示的新型图像上色框架，实现了既语义合适又能提高用户对上色过程控制水平的上色输出，通过预训练的生成扩散模型进行微调并评估颜色鲜艳度，适用于颜色增强和历史图像上色。

Dec, 2023

多模态语义感知自动着色与扩散先验

通过使用扩散先验的生成能力，结合亮度条件指导和多模式高级语义先验，本文提出了一种自动上色流程，能够合成饱和且具有合理语义的颜色，改善了自动上色方法中的语义和色彩的准确性问题。

Apr, 2024

深度基于范例的视频着色

提出了首个端到端网络来完成基于示例的视频着色，在保持参考风格的同时实现了时间上的一致性。通过引入循环框架来统一语义对应和颜色传递步骤，利用提供的参考图像来引导每一帧的着色，减少了积累的传播误差，并通过时间一致性损失进一步强制协同着色历史，最终生成稳定性良好且逼真的视频，实验表明，与现有技术相比，在定量和定性方面都具备优越性。

Jun, 2019

DiffColor：使用扩散模型进行高保真度文本引导图像上色

利用预训练的扩散模型来恢复以提示文本为条件的鲜艳颜色而无需任何额外输入，具有高质量的图像重建、丰富多样的颜色、可在上下文中进行彩色显示以及对象级可控颜色化效果，超过先前的研究在视觉质量、颜色保真度和颜色化选项的多样性方面的表现。

Aug, 2023

基于 Piggyback 模型的改进扩散图像上色

本文介绍了一个基于 T2I 模型的彩色转换模型，利用预训练的 T2I 模型的颜色先验知识，结合扩散引导器产生符合灰度图像视觉语义的潜在色调，接着使用一个灵敏度感知的 VQVAE 模型，生成与给定灰度输出像素完美对齐的彩色结果。在大量的实验中，该模型在感知质量上取得了最先进的性能。

Apr, 2023

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

基于语义对应的时序一致自动视频上色

该研究提出了一种新的视频着色框架，它将语义对应引入自动视频着色中以保持长程一致性，通过自动着色参考图像来监督整个着色过程，并且引入了语义对应网络和图像着色网络以保持临近帧和长期帧的时间一致性，实验证明该方法在维持时序一致性方面优于其他方法。

May, 2023

深度视频颜色传播

本研究提出了一框架，结合了本地和全局策略，来利用深度学习技术实现视频中颜色的传播，使得颜色的传播更加稳定，并且利用了语义信息的特点，具有很高的优越性。

Aug, 2018

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022