STREAM: 视频生成模型的时空评估与分析指标
近年来,深度生成模型在图像合成方面取得了可观的进展,但在视频领域的学习则更为困难,需要模型同时捕获场景的时间动态和对象的视觉呈现。该研究提出了用于评价视频生成模型的新评价度量 - Fréchet Video Distance,并提供了基于 StarCraft 2 的新的视频生成模型挑战基准进行了大规模的人体研究和初始基准结果。
Dec, 2018
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
探索 Fréchet Video Distance(一种评估视频生成模型的优秀指标)对每帧质量和时域真实度的偏向程度,并确定其来源;通过解耦帧质量和运动质量,量化 FVD 对时域轴的敏感性,发现 FVD 在大的时域损坏下略微增加;通过精心从不包含运动的大量生成视频中进行采样,显示能够显著减少 FVD 而不改善时域质量;研究表明 FVD 偏向于个别帧的质量;观察到偏向可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征;结果显示使用最近的大规模自监督视频模型提取的特征的 FVD 对图像质量偏向较小;最后,通过验证我们的假设,重新审视了一些现实世界的例子。
Apr, 2024
本文提出了一种基于深度学习的感知质量度量方法用于测量视频帧插值结果,通过收集新的视频帧插值质量评估数据集,证明了该方法在视频帧插值结果测量中优于现有的最先进方法。
Oct, 2022
我们提出了一种名为在线视频编辑的新任务,旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion(SVDiff)来解决此问题,它将紧凑的空间感知时间回归与现成的稳定扩散相结合,并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置,我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明,我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度,对于长时间、高质量的视频编辑表现出色。
May, 2024
通过 VBench 系统,我们提供了一个全面的视频生成评估基准,将视频生成质量分解为特定的、分层的、分离的维度,并为每个维度提供了定制的提示和评估方法;我们还提供了人类喜好注释的数据集,验证了我们基准与人类知觉的一致性;在各个评估维度和各种内容类型上,我们研究了当前模型在视频生成能力上的差异,并探究了视频和图像生成模型之间的差距。
Nov, 2023
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
通过对视频扩散模型的研究,我们系统调查了样本复制现象,分析了最近的视频合成扩散模型在无条件和有条件生成情景下对空间和时间内容的复制倾向,并提出了减少复制的策略和考虑复制问题的新评估策略。
Mar, 2024
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023