利用检索辅助视频生成技术的动画故事讲述

Jul, 2023

利用检索辅助视频生成技术的动画故事讲述

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong...

TL;DR提出了一种使用现有短视频合成视觉讲述视频的技术，该技术基于查询文本描述运动结构，在结构引导和外观指导下生成基于情节的视频，并通过概念个性化方法保证视频的视觉一致性。

Abstract

Generating videos for visual storytelling can be a tedious and complex process that typically requires either live-action filming or graphics animation rendering. To bypass these challenges, our key idea is to utilize the abundance of existing video clips and synthesize a coherent

video synthesis motion structure storytelling personalization text-to-video

发现论文，激发创造

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

故事到动作：从长篇文本合成无限和可控制的角色动画

使用大型语言模型作为驱动，我们提出了一种新颖系统来从长文本中提取控制、无限长的运动轨迹和动作，并解决了从文本描述生成运动时的位置约束和不稳定性的问题，同时在轨迹跟随、时间动作组合和动作混合等子任务中的综合性能也超过了现有的合成方法。

Nov, 2023

基于情感和关键词的视觉故事生成

自动视觉化故事生成包含了自然对话生成和图像生成两个部分，其中，系统通过用户指定的关键词和情绪标签生成下一个句子，再用扩散模型生成相应的图像。此外，通过对象识别技术，生成的图像中的物品可被用于未来的故事发展。

Jan, 2023

Make-A-Story: 视觉记忆条件下的连贯故事生成

本文提出了一种基于自回归扩散模型和视觉记忆模块的方法，利用软注意力机制实现了参考解析和场景、角色的一致性维护，用于生成与故事一致、质量高的帧画面，并在多句子情节的数据集上进行了实验验证。

Nov, 2022

TaleCrafter: 多角色交互式故事可视化

本文提出了一个通用的交互式故事可视化系统，该系统涵盖了故事到提示生成，文本到布局生成，可控文本到图像生成和图像到视频动画四个组件，允许用户处理多个新角色和灵活修改布局与结构。

May, 2023

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

MagicVideo-V2: 多阶段高美学视频生成

MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中，可以生成具有出色保真度和平滑度的美观、高分辨率视频，在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。

Jan, 2024

LivePhoto：带有文本引导的实时图像动画与运动控制

通过 LivePhoto 系统，使用者可以通过文本描述来为感兴趣的图像添加动画效果，系统通过改进的生成器和设计的训练流程，实现了文本到视频的解码，进而实现了对视频的自定义。

Dec, 2023