CVPR 2023 文本引导的视频编辑竞赛
本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法,利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性,证明在 DAVIS 数据集上,VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法,同时仅需大约一分钟即可处理一个视频。
Jun, 2023
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
EffiVED 是一种基于扩散的高效模型,支持指导视频编辑;采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练;实验证明 EffiVED 生成高质量编辑视频且执行速度快,并且数据收集方法显著改善编辑性能,有望解决视频编辑数据的稀缺问题。
Mar, 2024
人工智能生成内容(AIGC)领域迅速发展,本研究介绍了 AIGCBench,一个全面且可扩展的基准测试,旨在评估各种视频生成任务,主要集中在图像到视频(I2V)生成上。
Jan, 2024
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征,并利用大型语言模型的能力给出预测评分,该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型,能够给出主观对齐的预测评价。
Mar, 2024
一项针对基于文本的视频编辑的新型高效方法,通过自动生成适用于视频转换任务的合成配对视频数据集,用于视频图像编辑指令的转换,并采用长视频采样校正以确保一致性。该方法超越了现有的方法(如 Tune-A-Video),在基于文本的视频编辑方面取得了显著进展,并提出了更多领域探索和应用的激动人心的方向。
Nov, 2023
该论文报告了 NTIRE 2024 年 AI 生成内容质量评估挑战,该挑战受到了图像和视频处理领域中的一个主要挑战的关注,即 AI 生成内容的图像质量评估和视频质量评估。
Apr, 2024
提出了一种统一的多模态视频生成系统,能够处理基于文本和图像模态的多个视频生成任务,其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义,低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容,该方法在 MSR-VTT 公共学术基准中取得了最低的 Fréchet 视频距离(FVD),在人类评估中超过了当前的开源方法,并与当前的闭源方法 Gen2 持平。
Jan, 2024
我们的工作致力于探索基于分数蒸馏的稳健视频编辑范式,通过提出自适应滑动分数蒸馏策略,修改编辑过程中的自注意力层以保留原视频的关键特征,能够有效地应对文本为基础的视频生成中的挑战,实现与现有先进方法相比更优异的编辑性能。
Jun, 2024