无需训练的基于预训练扩散模型的语义视频合成
通过使用大规模预训练的扩散模型,我们提出了一种可控的图像合成方法,将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型,同时设计了一个自监督训练框架和一个定制化的训练数据准备方法,并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估,结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。
Aug, 2023
我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法,该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法,并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下,尽管它没有经过显式的 VSS 训练。
May, 2024
我们提出了一个无需训练的通用视频合成框架,命名为 BIVDiff,通过将特定的图像扩散模型与通用文本到视频基础扩散模型相结合,既实现了强大的任务泛化能力,又具有高效性。
Dec, 2023
通过应用扩散模型,我们比较了两种条件性扩散模型 (Classifier-Guidance 和 Classifier-Free) 在处理前景图像的亮度和颜色调整,从而达到与背景无缝融合的视觉效果,提出了一种新的图像和谐化方法。
Jun, 2023
通过将视频修复问题作为条件生成建模问题加以解决的框架,以及利用生成方法的优势,本文展示了能够生成多样化且高质量修复效果的方法,并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。
Apr, 2024
本研究提出一种结构与内容导向的视频扩散模型。训练过程基于单眼深度估计,能够控制结构和内容的保真度,并通过新的指导方法使模型展现明确的时间一致性控制。实验结果表明该模型可以实现对视频特征的精细控制,依据少数参考图像定制化编辑,且用户更倾向于使用该模型的结果。
Feb, 2023
图像合成的目标是将前景对象与背景图像合并以获取逼真的合成图像。最近,基于大型预训练扩散模型的生成式合成方法由于其前所未有的图像生成能力而得到发展。然而,生成的结果往往会丢失前景细节并出现明显的伪影。在本文中,我们提出了一种名为 DreamCom 的尴尬简单方法,灵感来自 DreamBooth。具体来说,给定一个主题的几个参考图像,我们通过微调文本导向修复扩散模型来将该主题与特殊标记相关联,并在指定的边界框内修复该主题。我们还构建了一个专门为此任务设计的新数据集 MureCom。
Sep, 2023
本文介绍了 ColorDiffuser:一种预训练的文本到图像潜在扩散模型的视频上色适应方法,包括颜色传播关注和交替采样策略两种技术,有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量,实验表明该方法优于现有方法。
Jun, 2023
利用预训练扩散模型的内在知识,通过采样和融合技术,提出了一种新的扩散特征融合方法(DIFF)来提取和集成有效的语义表示,该方法在领域泛化语义分割和合成到真实情景中均优于先前的方法达到了最优性能。
Jun, 2024
本论文提出了 PrimeComposer,一种快速训练无关的扩散器,通过在不同噪声水平上精心设计的注意力引导来组合图像。该方法主要通过使用我们的关联扩散器,在每个步骤上利用其自注意层来实现。我们的方法在前景生成、合成质量和推理效率方面都表现出卓越的优势。
Mar, 2024