- 演化叙事:新角色定制的基准和方法与扩散模型
EpicEvo 通过引入新的角色来适应性生成新故事,并将这些角色无缝地融入已有的人物动态中,使用了改良的文本数据集和一种具有对抗角色对齐模块的扩散式视觉故事生成模型,通过定量评估和定性研究证明了其在 Diffusion 模型中定制化视觉故事 - StoryImager:一个统一高效的故事可视化和完善框架
StoryImager 是一个双向的、统一的、高效的框架,通过增强继承于预训练的文本到图像模型的 storyboard 生成能力实现双向生成。具体而言,我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外,我们提出了一种框 - 带有角色引导和标题增强的遮蔽生成故事变换器
Story Visualization 任务的挑战在于生成图像序列中的视觉质量和帧间的一致性。我们采用并行的基于 transformer 的方法,通过过去和未来的描述与图像进行交叉注意力来实现一致性,并结合文本条件和字符条件的逻辑回归来隐式 - CogCartoon:实用故事可视化
CogCartoon 是一种基于预训练扩散模型的实用故事可视化方法,通过创新的角色插件生成策略和插件引导推理策略,实现对故事图像的灵活布局和个性化定制,从而在长篇故事可视化和逼真风格故事可视化等挑战性任务中表现出优越性。
- Make-A-Storyboard:故事板的通用框架,具有解耦和合并控制
Story Visualization 通过 Story Visualization 创建故事板,在场景和角色之间保持视觉一致性,与当前方法相比,Story Visualization 通过 Make-A-Storyboard 的通用框架解 - 大型语言模型作为一致的故事可视化器
StoryGPT-V 使用潜在扩散和大语言模型的优点,生成具有一致且高质量角色的图像,通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异,并具有较低的内存消耗。
- AutoStory: 以最小化人力投入生成多样化的故事图像
自动化故事可视化系统通过大规模语言模型的理解和规划能力进行布局规划,然后利用大规模文本到图像模型生成基于布局的复杂故事图像,通过密集条件生成模块将简单边界框布局转换为草图或关键点控制条件增加生成图像质量和简便的用户交互,同时提出了一种简单而 - ICCV通过在线文本增强和上下文记忆进行故事可视化
故事可视化是一项具有挑战性的文本到图像生成任务,不仅需要从文本描述中呈现视觉细节,还需要对跨多个句子的长期上下文进行编码。本文提出了一种新颖的记忆架构用于双向 Transformer,并采用在线文本增强生成多个伪描述作为训练过程中的辅助监督 - TaleCrafter: 多角色交互式故事可视化
本文提出了一个通用的交互式故事可视化系统,该系统涵盖了故事到提示生成,文本到布局生成,可控文本到图像生成和图像到视频动画四个组件,允许用户处理多个新角色和灵活修改布局与结构。
- Make-A-Story: 视觉记忆条件下的连贯故事生成
本文提出了一种基于自回归扩散模型和视觉记忆模块的方法,利用软注意力机制实现了参考解析和场景、角色的一致性维护,用于生成与故事一致、质量高的帧画面,并在多句子情节的数据集上进行了实验验证。
- EMNLP学习多模态语义对齐模型以进行故事可视化
在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题,进而生成连贯、高质量的多句故事可视化。
- EMNLP通过视觉计划和令牌对齐实现基于人物的故事可视化
本文提出了一种基于 VQ-VAE 和文本 - 视觉 - token 技术的故事可视化方法,通过引入角色预测模型和视觉 token 补全模型,实现了角色的有效重现和高质量图像序列的生成。
- ECCVStoryDALL-E:基于预训练文本到图像转换器的故事延续适应
本文提出了一个可以基于现有的训练好的文本到图像转换模型生成连续图像和故事的方法,并加以改进。该方法利用任务特定的模块实现顺序图像生成和复制源图像中相关元素,并使用了全模型微调和基于提示的微调等策略进行参数调整。该方法在多个数据集上进行了测试 - ECCV词级细粒度故事可视化
本论文提出了一种新的句子表示方法来减轻不一致问题,并引入了融合特征的新的鉴别器和扩展的空间注意力来提高图像质量和故事连贯性,实验表明,与现有方法相比,该方法具有优越的性能。
- ACL通过语义一致性提升视觉故事的生成和评估
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型,并提供了相应的评价指标和对这些指标的直观检验。
- StoryGAN:用于故事可视化的序贯条件 GAN
本研究提出了一种新的任务 —— 故事可视化,为每个句子生成一张图像,针对图像连续性与场景和角色的全局一致性的挑战,构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN,并通过质量和一致性指标优于现有模型。