复杂数据的分层视频生成
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021
本研究提出了一种视频生成模型,通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性,所得的模型经过新的基准数据集的测试,取得了良好的效果。
Jun, 2022
本文提出了一种将视频建模为条件分层图层次结构的方法,通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念,该方法超越了先前方法的表现,且对于不同类型的问题也具有更好的泛化能力。
Dec, 2021
本文提出了一种名为 DVD-GAN 的新模型,在复杂的 Kinetics-600 数据集上训练了大量生成对抗网络,成功地生成了高度复杂和逼真的视频图像。该模型通过对其鉴别器进行计算上的简化,可以扩展到更长和更高分辨率的视频中,并且在视频合成和预测方面取得了最新的最先进技术。
Jul, 2019
我们提出了 Video ReCap,一种递归视频字幕模型,可以处理时长从 1 秒到 2 小时的视频输入,并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用,我们的递归视频 - 语言架构可以高效地处理长达数小时的视频。我们还通过增加 8,267 个手动收集的长范围视频摘要来引入 Ego4D-HCap 数据集。我们的递归模型可以灵活地生成不同层次结构的字幕,同时也适用于其他复杂的视频理解任务,如基于 EgoSchema 的 VideoQA。
Feb, 2024
提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型,将 video-text matching 分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。
Mar, 2020
本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型,通过对输入帧进行编码,预测高级别的特征,再通过解码器生成预测图像,同时采用了对抗性损失以训练预测器,该方法可以进行 20 秒预测,并在 Human 3.6M 数据集上取得了更好的结果。
Jun, 2018
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
Jun, 2019
提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法,通过将运动描述分解成三个层次的语义图,从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制,并对分解的文本到运动扩散过程进行了优化,通过修改分层语义图的边权重,实现了生成运动的持续细化,具有超过基准数据集 HumanML3D 和 KIT 的优越性能。
Nov, 2023