InstructPix2Pix 高级图像上色的微调
我们提出了一种图像编辑方法,可以根据用户的书面指令编辑图像,同时我们结合了两个预训练模型的知识生成了大量训练数据,使用训练好的模型可以快速地编辑图像,并且可以适用于不同的输入图像和书面指令。
Nov, 2022
本文介绍了一个基于 T2I 模型的彩色转换模型,利用预训练的 T2I 模型的颜色先验知识,结合扩散引导器产生符合灰度图像视觉语义的潜在色调,接着使用一个灵敏度感知的 VQVAE 模型,生成与给定灰度输出像素完美对齐的彩色结果。在大量的实验中,该模型在感知质量上取得了最先进的性能。
Apr, 2023
InstructAny2Pix 是一个灵活的多模态指令跟踪系统,其由多个组件组成,包括多模态编码器、扩散模型、多模态 LLM 和细化先验模块,能够根据来自音频、图像和文本的指令对输入图像进行编辑,实现了一系列新颖的指令引导编辑任务。
Dec, 2023
利用预训练的扩散模型来恢复以提示文本为条件的鲜艳颜色而无需任何额外输入,具有高质量的图像重建、丰富多样的颜色、可在上下文中进行彩色显示以及对象级可控颜色化效果,超过先前的研究在视觉质量、颜色保真度和颜色化选项的多样性方面的表现。
Aug, 2023
使用图像扩散技术和细粒度文本提示的新型图像上色框架,实现了既语义合适又能提高用户对上色过程控制水平的上色输出,通过预训练的生成扩散模型进行微调并评估颜色鲜艳度,适用于颜色增强和历史图像上色。
Dec, 2023
最近,在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展,将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面,该界面抽象了任务的具体设计选择,使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题,其中文本描述任务,生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板,并通过这个过程,创建了一个多模态和多任务训练数据集,包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节,将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明,我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且,它还具备令人信服的对未见数据、类别和用户指令的泛化能力。
Sep, 2023
通过构建一个大规模指示遵循数据集,以及提出高频率引导采样方法和辅助提示适配器,即 PromptFix,使扩散模型在各种图像处理任务中优于以往方法,同时在盲恢复和组合任务中展现出卓越的零样本能力。
May, 2024
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术,用于文本驱动的图像编辑,能够在保留输入图像高准确度的同时进行灵活的编辑,实验证明该方法在 ImageNet 数据集上的表现优于现有技术。
May, 2023
本文介绍了 ColorDiffuser:一种预训练的文本到图像潜在扩散模型的视频上色适应方法,包括颜色传播关注和交替采样策略两种技术,有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量,实验表明该方法优于现有方法。
Jun, 2023