RefDrop: 基于参考特征引导的图像或视频生成中的可控行一致性

May, 2024

RefDrop: 基于参考特征引导的图像或视频生成中的可控行一致性

RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance

Jiaojiao Fan, Haotian Xue, Qinsheng Zhang, Yongxin Chen

TL;DR通过操作注意力模块，而不需要微调，我们揭示了一种将图像自我注意力和合成内容和参考特征之间的交叉注意力进行线性插值的流行方法的机制，并提出了一种简化的可控生成机制，名为 RefDrop，它能够直接而精确地控制参考上下文的影响，提高图像生成和视频生成的一致性并允许更多有趣的应用。

Abstract

There is a rapidly growing interest in controlling consistency across multiple generated images using diffusion models. Among various methods, recent works have found that simply manipulating →

diffusion models attention modules consistency controllable generation image generation

发现论文，激发创造

基于视图迭代自注意力控制的无调整视觉定制化

本文提出了 View Iterative Self-Attention Control (VisCtrl) 作为一种无需进行模型微调的训练方法，通过逐步将参考图像的特征嵌入目标图像，实现了一次去噪便能实现一张参考图像的一致和谐编辑，而且该方法还能在复杂的视觉领域进行扩展。

Jun, 2024

SpecRef: 一种快速训练免费的特定参考条件下的真实图像编辑基准

基于大规模扩散生成模型的文本条件图像编辑引起了工业界和研究界的关注。现有方法大多是非参考编辑，用户只能提供源图像和文本提示，然而这限制了用户对编辑结果特征的控制。为增加用户的自由度，我们提出了一个名为特定参考条件的真实图像编辑任务，使用户能够提供参考图像进一步控制结果，例如用特定物体替换对象。为了实现这一目标，我们提出了一种名为 SpecRef 的快速基准方法。具体而言，我们设计了一个特定参考注意控制器来融合参考图像的特征，并采用掩码机制来防止编辑和非编辑区域的干扰。我们在典型的编辑任务上对 SpecRef 进行评估，并展示其能够达到令人满意的性能。源代码可在此 https URL 获取。

Jan, 2024

FilterPrompt：在扩散模型中引导图像传输

我们提出了 FilterPrompt 方法，通过在像素空间中对输入图像的特定特征分布执行图像处理操作，从而实现对生成结果的精确控制效果。该方法可以广泛适用于任何扩散模型，让用户根据任务要求调整特定图像特征的表示，从而促进更精确、可控的生成结果。

Apr, 2024

使用丰富提示进行零样本图像转换的扩散模型再生学习

本文提出了一种 ReDiffuser 图片修复模型，该模型使用自动生成的描述来完成图片编辑，利用再生学习和交叉注意力向导实现图片对形状的一致性保留，并引入一种协作更新策略，提高图片修复的质量和一致性。实验结果表明，该方法在真实和合成图片编辑方面优于现有方法。

May, 2023

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

DreamVideo: 高保真图像到视频生成（具备图像保留和文本指导）

我们提出了一种高保真度的图像到视频生成方法，通过在预先训练的视频扩散模型上设计一个帧保留分支，名为 DreamVideo，来解决现有方法的局限性，该方法通过卷积层感知参考图像，并将特征与噪声潜在变量连接起来作为模型输入。同时，通过结合无分类器指导的双条件，可以通过提供不同的提示文本将单个图像导向不同动作的视频，使得视频的生成具备精确控制能力。综合实验表明，我们的方法在公开数据集上表现出色，无论是定量还是定性结果都优于现有方法，并且在 UCF101 数据集上相对于其他图像到视频模型具有较强的图像保留能力和高 FVD 得分。更多详细信息和全面结果将在文中进行详细阐述。

Dec, 2023

阅读指导：从扩散特征中学习控制

我们提出了一种名为 Readout Guidance 的方法，用于通过学习的信号控制文本到图像扩散模型。该方法使用读取头，在每个时间步从预训练的冻结扩散模型的特征中提取信号。这些读出可以编码单一图像属性，如姿态、深度和边缘；或者编码多个图像相关的高阶属性，如对应关系和外观相似性。此外，通过将读出估计与用户定义的目标进行比较，并通过读出头向后传播梯度，可以使用这些估计来指导采样过程。与先前的有条件生成方法相比，Readout Guidance 需要更少的添加参数和训练样本，并提供了一个方便而简单的方法来在一个框架、一个架构和一个采样过程下重现不同形式的条件控制。我们展示了在拖动式操作、身份一致生成和空间对齐控制的应用中的这些优势。

Dec, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

Ref-Diff: 通过生成模型实现的零样本参考图像分割

本研究提出了一种用于零样本参照图像分割的新型方法 Ref-Diff，它利用生成模型中的细粒度多模态信息，证明仅凭生成模型的性能可以与现有的 SOTA 弱监督模型相媲美，并且当将生成模型与判别模型结合时，我们的 Ref-Diff 显著优于其他方法，证明生成模型对于该任务也是有益的，可为更好的参照分割提供补充。

Aug, 2023

TransRef：多尺度参考嵌入变形器 —— 用于参考引导的图像修复

本文提出了一种基于参考的图像修复方法，通过逐步参考嵌入和对齐修复和参考图像的关键点，结合参考图像信息用于引导修复过程，并在公开数据集上进行了验证。

Jun, 2023