OneActor：通过群集条件引导实现一致的角色生成

Apr, 2024

OneActor：通过群集条件引导实现一致的角色生成

OneActor: Consistent Character Generation via Cluster-Conditioned Guidance

Jiahao Wang, Caixia Yan, Haonan Lin, Weizhan Zhang

TL;DR針對文本到圖像擴散模型中的一致性生成的挑戰，提出了一種輕量級但複雜的引導方法，通過引入後驗樣本來引導去噪軌跡向目標集群集中，並設計輔助組件來同時增強調整過程和規範推理，以提高生成圖像的內容多樣性。綜合實驗結果顯示，該方法在角色一致性、提示一致性和圖像質量方面都優於基線方法，並且比基於調整的基線方法至少快 4 倍。此外，首次證明語義空間具有與潛在空間相同的插值特性，可作為另一種精細生成控制的有希望工具。

Abstract

text-to-image diffusion models benefit artists with high-quality image generation. Yet its stochastic nature prevent artists from creating consistent images of the same character. Existing methods try to tackle this challenge and generate consistent content in various ways. However, th

text-to-image diffusion models consistent generation cluster-conditioned model content diversity semantic space

发现论文，激发创造

所选之人：文本到图像传播模型中的一致字符

最新的文本到图像生成模型在提供视觉创造力方面有巨大潜力，但在一致性字符生成方面存在困难。本文介绍了一种完全自动化的解决方案，通过文本提示作为唯一输入，使用迭代的过程来生成一致性字符，并展示了其在多个实际应用中的实践。

Nov, 2023

Make-A-Story: 视觉记忆条件下的连贯故事生成

本文提出了一种基于自回归扩散模型和视觉记忆模块的方法，利用软注意力机制实现了参考解析和场景、角色的一致性维护，用于生成与故事一致、质量高的帧画面，并在多句子情节的数据集上进行了实验验证。

Nov, 2022

ACT: 对抗一致性模型

通过在一步采样中最小化一致性训练损失来优化生成模型，提出了对抗一致性训练（ACT），通过在每一步骤使用鉴别器最小化分布间的 Jensen-Shannon 散度，从而提高了生成质量和收敛速度，这导致资源消耗大幅度减少，具有改进的 FID 分数。

Nov, 2023

实现动画的任何人：一致且可控的角色动画图像到视频的合成

通过扩展训练数据，我们提出了一种针对角色动画的新型框架，使用扩散模型来保持细节特征的一致性，通过空间注意力合并细节特征，引入高效的姿势指导器来控制角色运动，并采用有效的时间建模方法来实现视频帧之间的流畅过渡，相比其他图像到视频方法，在角色动画领域取得了卓越的结果。此外，我们在时尚视频和人类舞蹈合成基准上评估了我们的方法，取得了最先进的结果。

Nov, 2023

用一致性蒸馏加速基于扩散的文本到音频生成

这项研究修改最近提出的一致性蒸馏框架，用于训练只需要单个神经网络查询的 TTA 模型，同时通过在音频空间中使用新的损失函数（如 CLAP 得分）对一致性 TTA 模型进行微调，从而在保留扩散模型高生成质量和多样性的同时，将查询次数减少了 400 倍。

Sep, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

无需训练的一致文本图像生成

ConsiStory 是一种无需训练的方法，通过共享预训练模型的内部激活来实现一致的主题生成，同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比，我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能，而无需进行任何优化步骤。最后，ConsiStory 可以自然地扩展到多主题场景，甚至可以对常见物体进行无需训练的个性化。

Feb, 2024

ObjectComposer: 一致生成多个对象而无需进行微调

现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难，本论文介绍了一种名为 ObjectComposer 的方法，通过不修改底层模型的权重，训练了一种无需 fine-tuning 的方法，可一次生成多个特定对象的组合。

Oct, 2023

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

受限扩散指导的可控图像合成

该研究提出了一种称为 late-constraint 的新方法，使用轻量级条件适配器来建立扩散模型内部表示和外部条件之间的相关性，并通过时间步长重采样和早期停止技术提高合成图像的质量。

May, 2023