复杂数据的分层视频生成

Jun, 2021

Hierarchical Video Generation for Complex Data

Lluis Castrejon, Nicolas Ballas, Aaron Courville

TL;DR本研究提出一种基于层次模型和部分视图训练的视频生成方法，通过生成低分辨率视频来建立全局场景结构，然后通过层次结构的后续级别进行细化，从而降低了计算复杂度，可用于高分辨率视频的生成。

Abstract

Videos can often be created by first outlining a global description of the scene and then adding local details. Inspired by this we propose a hierarchical model for video generation which follows a coarse to fine approach. First our model generates a low resolution video, establishing

video generation hierarchical model computational complexity partial views high-resolution videos

发现论文，激发创造

重新审视分层方法，用于持久长期视频预测

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Apr, 2021

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

利用视频作为条件图层级的多粒度问答

本文提出了一种将视频建模为条件分层图层次结构的方法，通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念，该方法超越了先前方法的表现，且对于不同类型的问题也具有更好的泛化能力。

Dec, 2021

复杂数据集上的对抗性视频生成

本文提出了一种名为 DVD-GAN 的新模型，在复杂的 Kinetics-600 数据集上训练了大量生成对抗网络，成功地生成了高度复杂和逼真的视频图像。该模型通过对其鉴别器进行计算上的简化，可以扩展到更长和更高分辨率的视频中，并且在视频合成和预测方面取得了最新的最先进技术。

Jul, 2019

递归字幕：对小时长视频的递归字幕

我们提出了 Video ReCap，一种递归视频字幕模型，可以处理时长从 1 秒到 2 小时的视频输入，并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用，我们的递归视频 - 语言架构可以高效地处理长达数小时的视频。我们还通过增加 8,267 个手动收集的长范围视频摘要来引入 Ego4D-HCap 数据集。我们的递归模型可以灵活地生成不同层次结构的字幕，同时也适用于其他复杂的视频理解任务，如基于 EgoSchema 的 VideoQA。

Feb, 2024

分层图推理的细粒度视频文本检索

提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型，将 video-text matching 分解成全局到局部的语义层次；通过基于注意力的图推理生成层次化的文本嵌入，进而引导学习多样化和分层的视频表示，并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节，从而实现视频和文本之间的交叉检索。

Mar, 2020

无监督层次化长期视频预测

本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型，通过对输入帧进行编码，预测高级别的特征，再通过解码器生成预测图像，同时采用了对抗性损失以训练预测器，该方法可以进行 20 秒预测，并在 Human 3.6M 数据集上取得了更好的结果。

Jun, 2018

深度卷积图网络的分层视频帧序列表示

本文提出了一种基于深度卷积图神经网络的视频分类方法，利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取，获得反映事件语义的视频表示，其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。

Jun, 2019

随心所欲：具有层次语义图的运动扩散模型细粒度控制

提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法，通过将运动描述分解成三个层次的语义图，从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制，并对分解的文本到运动扩散过程进行了优化，通过修改分层语义图的边权重，实现了生成运动的持续细化，具有超过基准数据集 HumanML3D 和 KIT 的优越性能。

Nov, 2023