STDiff: 连续随机视频预测的时空扩散
通过利用扩散概率模型和随机扩散(StochDiff)模型,本研究提出了一种新型方法,学习每个时间步长的数据先验知识,从而更好地对高度随机化的时间序列进行建模,通过实验验证了该方法在随机时间序列预测中的有效性,并展示了在实际医疗指导中的应用潜力。
Jun, 2024
通过自适应分解的方法,我们提出了一种状态空间分解的随机视频预测模型,将整体视频帧生成分解为确定性外观预测和随机运动预测,从而增强模型对动态场景的泛化能力。实验结果表明,我们的模型在多个数据集上优于基线模型。
Apr, 2024
本文提出了一种自回归、端到端优化的视频扩散模型,受到神经视频压缩技术的启发,可用于生成高质量的视频,并提出了可扩展的连续排名概率得分(CRPS)方法,以评估视频的概率预测能力,该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。
Mar, 2022
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
我们提出了一种名为在线视频编辑的新任务,旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion(SVDiff)来解决此问题,它将紧凑的空间感知时间回归与现成的稳定扩散相结合,并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置,我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明,我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度,对于长时间、高质量的视频编辑表现出色。
May, 2024
该论文提出了一种基于扩散的随机人体运动预测框架 DiffMotion,旨在预测未来的姿势序列,并通过使用多阶段图卷积网络和方差调度器,使预测结果准确、逼真、一致,同时在准确度和保真度方面明显优于先前的方法,并通过基准数据集展现了强大的鲁棒性。
May, 2023
通过引入一种新的自我关注计算方式(Consistent Self-Attention),以及引入一种语义空间时间运动预测模块(Semantic Motion Predictor),本文提出了一种名为 StoryDiffusion 的框架,能够生成包含丰富内容的一致图像或视频,用来描述基于文本的故事。
May, 2024
通过引入时态依赖于现有的文本驱动扩散模型,使其能够生成一致的编辑对象外观,我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制,利用分层表示的概念将相邻帧的外观信息传播到下一帧,并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架,可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比,我们方法展示了卓越的定性和定量结果。
Aug, 2023