- ChronoMagic-Bench:用于文本转时间流影片生成的变形评估基准
我们提出了一个新颖的文本到视频(T2V)生成基准,ChronoMagic-Bench,用于评估 T2V 模型(例如 Sora 和 Lumiere)在延时摄影视频生成中的时间和变态能力。
- SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐
为了减轻大规模视觉模型(LVMs)带来的有害输出的风险,我们引入了 SafeSora 数据集,促进文本到视频生成与人类价值观的对齐研究。该数据集包括帮助性和无害性两个主要维度上的人类偏好,并进一步细分为 4 个子维度和 12 个子类别。通过 - VideoTetris:走向组合式文本到视频生成
Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel fram - I4VGen:文本到视频生成的图像媒介
使用 I4VGen 框架,通过文本到图像到视频的多阶段过程,生成了更具视觉逼真度和文本准确性的视频,并能有效提升现有图像到视频扩散模型的整体质量。
- DisenStudio:定制化多主题文本到视频生成与解耦空间控制
本文提出了一种名为 DisenStudio 的新框架,通过增强预训练的基于扩散的文本到视频模型,使用空间分离的交叉注意机制将每个主题与期望的动作相关联,并使用三种微调策略来定制多个主题。通过广泛的实验证明,DisenStudio 在各种指标 - 从索拉所见:文本到视频生成的调查
通过对 Sora 进行文本到视频生成的拆解以及文献综述,我们从不同角度对其进行了全面回顾,总结了人工智能和人工一般智能的发展现状,介绍了常用的数据集和评估指标,并提出了该领域的挑战和未来研究方向。
- CVPR失落的旋律:从叙事视角的文本到视频生成的实证观察
本文从故事讲述的角度对文本到视频生成进行了研究,指出了当前文本到视频生成方案的局限性,并提出了一个用于视频故事方面的评估框架,并讨论了未来的发展方向。
- AniClipart:使用文本到视频先验的剪贴艺术动画
提出 AniClipart 系统,将静态 clipart 图像转化为高质量的动态序列,并展示了其在文本到视频生成中的优越性和多样化应用。
- MagicTime: 作为形变模拟器的延时摄影视频生成模型
提出了 MagicTime,这是一个从时间间隔视频学习真实世界物理知识并实现变形生成的模型。设计了 MagicAdapter 方案来解耦空间和时间训练,引入了 Dynamic Frames Extraction 策略来适应变形时间间隔视频, - CVPR文本到视频生成的网格扩散模型
通过使用网格扩散模型生成视频,我们可以通过固定数量的 GPU 内存生成高质量的视频,减小视频维度从而可以应用各种基于图像的方法,如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法,证明了我们的模型在真实世界中进行视频生成的适 - 图像与视觉扩散模型教程
生成工具的惊人增长赋予了文本向图像生成和文本向视频生成等许多令人兴奋的应用,这些生成工具的底层原理是扩散概念,一种克服了以前方法中困难的特定抽样机制。本教程旨在讨论扩散模型的基本思想,目标受众包括对扩散模型进行研究或将其应用于解决其他问题的 - CVPRTRIP:图像降噪先验的时域残差学习用于图像到视频扩散模型
最近在文本到视频生成方面的进展展示了强大的扩散模型的实用性,但是在将扩散模型应用于静态图像转视频生成(即图像到视频生成)时,这个问题并不简单。悬念源于以下方面:连续动画帧的扩散过程不仅应保持与给定图像的忠实对齐,还应追求相邻帧之间的时间一致 - S2DM: 视频生成的扇形扩散模型
我们提出了一种新颖的扇形扩散模型(S2DM),通过一组从相同噪声点开始的射线状反扩散过程形成的扇形扩散区域,S2DM 可以生成一组具有相同语义和随机特征的内在相关数据,但在时间特征上有适当的引导条件所变化。我们将 S2DM 应用于视频生成任 - ECCV文本到视频质量评估的主观对齐数据集和度量
利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征,并利用大型语言模型的能力给出预测评分,该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型,能够给出主观对齐的预测评价。
- 运动乐章:将静态图像转化为动态视频
通过将语义和动作线索整合到扩散模型中,我们引入了一种用于视频生成的新方法,它显著提升了视频质量、动作精度和语义连贯性。
- Sora 作为 AGI 世界模型?关于文本转视频生成的全面调查
文本到视频生成技术的进展与 Sora 模型的发展路径和应用,以及技术挑战与未来改进方向进行全面探讨,旨在促进文本到视频生成领域的创新与讨论。
- 魔我:身份特定视频定制扩散
提出了一个简单而有效的主题身份可控视频生成框架,称为视频定制扩散(VCD)框架,通过强化身份信息提取、注入帧间相关性并使用三个新的关键组件,实现了稳定且高质量的视频生成,对身份保留到很大程度。
- VideoCrafter2:克服数据限制以提高视频扩散模型的质量
基于给定提示生成视频的文本到视频生成旨在生成可信的视频。最近,一些商业视频模型能够生成具有最小噪声、出色细节和高美观分数的视频。然而,这些模型依赖于大规模、经过良好过滤、高质量的视频,而这对社区来说是不可获得的。许多现有的研究工作使用低质量 - TrailBlazer:基于扩散的视频生成的轨迹控制
通过使用边界框来引导主题,在不进行神经网络训练、微调、推理时间优化或使用现有视频的情况下,本文专注于改善视频合成中的可控性。
- 通过遮罩扩散实现的互动视频生成
最近,在文本到视频生成方面取得了很大的进展,目前的模型能够生成高质量、逼真的视频。然而,这些模型缺乏用户交互控制和生成视频的能力,这可能开启新的应用领域。本论文提出了一种通过扩展性 - 自适应控制来加强扩散型视频生成模型的输出的方法。该模块