演化叙事:新角色定制的基准和方法与扩散模型
最新的文本到图像生成模型在提供视觉创造力方面有巨大潜力,但在一致性字符生成方面存在困难。本文介绍了一种完全自动化的解决方案,通过文本提示作为唯一输入,使用迭代的过程来生成一致性字符,并展示了其在多个实际应用中的实践。
Nov, 2023
提出了一种在编码器和采样阶段均采用自适应上下文建模的方法来改进文本到图像生成模型,实现了对视觉化故事生成的全局一致性的提升,取得了 PororoSV 和 FlintstonesSV 数据集上最佳 FID 分数和生成语义一致故事图像的优异性能。
May, 2023
本文提出了一种基于生成模型的 auto-regressive image generator,用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事,并介绍了一个名为 StorySalon 的新的数据集构建流程。实验证明,该模型在图像质量、风格一致性、内容一致性和视觉 - 语言对齐等方面具有显著优越性。
Jun, 2023
本文提出了一种基于文本的神经管道,利用预训练的语言模型和文本引导的潜在扩散模型来生成一系列连贯的图像,实现连贯的故事书生成,并展示了无需昂贵的图像 - 标题对训练的文本转换技术的性能表现。
Feb, 2023
本文提出了一个可以基于现有的训练好的文本到图像转换模型生成连续图像和故事的方法,并加以改进。该方法利用任务特定的模块实现顺序图像生成和复制源图像中相关元素,并使用了全模型微调和基于提示的微调等策略进行参数调整。该方法在多个数据集上进行了测试,并通过生成故事情节的连续性检验了优点。最后,研究结果表明,在多个角色参与的叙述中,预训练模型的性能明显下降。
Sep, 2022
本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中,增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下,生成流水线模型在单图像的新视角合成任务上的性能改进,更重要的是,这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知,我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型;广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。
Jan, 2024
本文提出了一种新的方法,结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络,用于生成高质量,风格化的 3D 头像,并在视觉质量和多样性方面优于现有最先进的方法。
May, 2023
从文本提示中生成视频故事是一项复杂的任务,需要高质量的视觉效果,视频需要根据文本提示的顺序进行逼真的呈现,而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足,我们在三个现有数据集上收集全面的人工注释,并引入了 StoryBench:一个新的、具有挑战性的多任务基准,可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务:动作执行,即从条件视频开始生成下一个动作;故事延续,即从条件视频开始执行一系列动作;以及故事生成,即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线,并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后,我们为人工评估视频故事建立了指南,并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。
Aug, 2023
通过扩展训练数据,我们提出了一种针对角色动画的新型框架,使用扩散模型来保持细节特征的一致性,通过空间注意力合并细节特征,引入高效的姿势指导器来控制角色运动,并采用有效的时间建模方法来实现视频帧之间的流畅过渡,相比其他图像到视频方法,在角色动画领域取得了卓越的结果。此外,我们在时尚视频和人类舞蹈合成基准上评估了我们的方法,取得了最先进的结果。
Nov, 2023
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023