- OpenVid-1M:一个用于文本到视频生成的大规模高质量数据集
T2V 生成在最近受到了很大的关注,然而仍面临两个重要的挑战:缺乏精确的开源高质量数据集,以及未充分利用文本信息。为了解决这些问题,我们介绍了 OpenVid-1M,一个精确的高质量数据集,以及一种能够从视觉标记和文本标记中提取结构信息和语 - Text-Animator: 可控的视觉文本视频生成
我们提出了一种创新的方法 Text-Animator,用于视觉文本视频生成,通过精确描述生成视频中视觉文本的结构,并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性,实验证明了我们方法在生成视觉文本准确性上的优越性。
- 重新思考文本到视频模型的人工评估协议:提升可靠性、可复现性和实用性
该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议,包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块,实验证明该协议不仅确保了高质量的注释,还可以将评估成本降低近 50%。
- 影响用户使用 SORA 的因素
Sora 重新定义了视觉内容的创建方式。本研究通过引入感知逼真度和创新价值,扩展了 UTAUT2 对用户使用文本到视频 (T2V) 模型的意愿的理解。研究结果表明,所有假设的关系都得到支持,感知逼真度是最具影响力的驱动因素,其次是创新价值。 - 使用扩散模型的视频运动迁移频谱对齐
Spectral Motion Alignment (SMA) is a novel framework that refines and aligns motion vectors using Fourier and wavelet tr - 探索预训练的文本到视频传播模型用于视频对象分割
探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条 - I2V-Adapter: 视频扩散模型的通用图像到视频适配器
在 AI 驱动视频生成领域,本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战,保持了 T2I 模型的结构完整性和运动模块,并在保持空间细节的同时降低了可训练参数的需求,这一性能上的突破在创意应用中具备了广 - 面向多模态生成的生成人工智能系统影响
对新兴的多模态文本到图像和文本到视频工作负载进行深入的系统性能表征是设计高效和可部署系统的关键第一步。
- StyleCrafter:通过风格适配器提升风格化文本到视频生成
通过引入 StyleCrafter 方法,扩展预训练的 T2V 模型,实现风格控制适配器,通过提供参考图像在任何风格下生成视频。通过首先使用富有风格的图像数据集训练一个风格控制适配器,然后通过独立的学习策略从参考图像中提取风格信息,在文字提 - SparseCtrl: 向文本到视频扩散模型中添加稀疏控制
通过使用 SparseCtrl,可以通过处理时间稀疏的信号实现灵活的结构控制,且不需要改变预训练的 T2V 模型,从而提供更实用的视频生成控制方法。
- VideoCrafter1:高质量视频生成的开放扩散模型
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
- LAMP: 基于少样本的视频生成中学习动作模式
通过少样本调参框架 LAMP,本研究展示了如何在单个 GPU 上学习特定的运动模式,以便用较少的数据生成高质量视频。
- 自由开花:具有 LLM 导演和 LDM 动画师的零样学文本至视频生成器
免费盛开通过利用大型语言模型作为导演以生成语义连贯的提示序列,同时利用预训练的潜在扩散模型作为动画师生成高保真度的帧,以确保时间和相同的连贯性和保持语义连贯性,而无需任何视频数据和培训要求。
- SimDA:用于高效视频生成的简易扩散适配器
本文提出了一种 Simple Diffusion Adapter (SimDA) 方法,通过微调一个强大的 Text-to-Image (T2I) 模型的 24M 个参数,以高效的方式将其适应于视频生成,并使用轻量级的空间和时间适配器进行转 - 文本到视频:适用于零样本身份不可知的说话头像生成的两阶段框架
本文提出了一种新颖的两阶段框架,用于人物无关视频克隆,特别关注文本转视频生成。在第一阶段,我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法,根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音 - 利用检索辅助视频生成技术的动画故事讲述
提出了一种使用现有短视频合成视觉讲述视频的技术,该技术基于查询文本描述运动结构,在结构引导和外观指导下生成基于情节的视频,并通过概念个性化方法保证视频的视觉一致性。
- 基于扩散模型的可控文本到视频生成
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
- Style-A-Video:任意文本视频样式转移的敏捷扩散
这篇文章提出了一种称为 Style-A-Video 的零样式迁移视频美化方法,利用生成式预训练转换器和图像潜在扩散模型,改善图像降噪过程的指导条件,从而在艺术表达和结构保护之间建立平衡,并采用采样优化和时间一致性模块,以达到优秀的内容保护和 - TPA-Net:生成基于物理动画的文本数据集
本文介绍了一种基于自主数据生成技术以及提供高分辨率的 3D 物理模拟和物质和其描述的文本描述的数据集,旨在推动基于文本的视频 / 模拟实现高水平的物理真实感。
- MagicVideo:利用潜在扩散模型高效生成视频
MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段,并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段,可以在 64 倍于最近的视频扩散模型(VDM)的速度