利用检索辅助视频生成技术的动画故事讲述
本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度方面表现优异,特别是在现有基线模型方面具有更好的性能。
Jun, 2023
我们提出了一种创新的方法 Text-Animator,用于视觉文本视频生成,通过精确描述生成视频中视觉文本的结构,并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性,实验证明了我们方法在生成视觉文本准确性上的优越性。
Jun, 2024
通过使用大型语言模型(LLM)生成搜索查询,检索由语音和视觉元数据索引的相关视频片段,并将用户查询与此元数据集成以生成具有特定视频时间戳的响应,我们提出了一种在视频库中应用检索增强生成(RAG)的可互操作体系结构,该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。
Jun, 2024
使用大型语言模型作为驱动,我们提出了一种新颖系统来从长文本中提取控制、无限长的运动轨迹和动作,并解决了从文本描述生成运动时的位置约束和不稳定性的问题,同时在轨迹跟随、时间动作组合和动作混合等子任务中的综合性能也超过了现有的合成方法。
Nov, 2023
自动视觉化故事生成包含了自然对话生成和图像生成两个部分,其中,系统通过用户指定的关键词和情绪标签生成下一个句子,再用扩散模型生成相应的图像。此外,通过对象识别技术,生成的图像中的物品可被用于未来的故事发展。
Jan, 2023
本文提出了一种基于自回归扩散模型和视觉记忆模块的方法,利用软注意力机制实现了参考解析和场景、角色的一致性维护,用于生成与故事一致、质量高的帧画面,并在多句子情节的数据集上进行了实验验证。
Nov, 2022
本文提出了一个通用的交互式故事可视化系统,该系统涵盖了故事到提示生成,文本到布局生成,可控文本到图像生成和图像到视频动画四个组件,允许用户处理多个新角色和灵活修改布局与结构。
May, 2023
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型,并提供了相应的评价指标和对这些指标的直观检验。
May, 2021
MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中,可以生成具有出色保真度和平滑度的美观、高分辨率视频,在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。
Jan, 2024
通过 LivePhoto 系统,使用者可以通过文本描述来为感兴趣的图像添加动画效果,系统通过改进的生成器和设计的训练流程,实现了文本到视频的解码,进而实现了对视频的自定义。
Dec, 2023