VideoGPT: 使用 VQ-VAE 和 Transformers 生成视频
利用巨大语言模型和 GPT,我们将因果生成引入视频扩散模型中,通过引入因果时序注意力和以帧为提示的设计,我们提出了 Video Diffusion GPT(ViD-GPT),能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制,我们还能够消除重叠帧的冗余计算,显著提高了推理速度。广泛的实验证明,我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。
Jun, 2024
本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力,重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器,利用其捕捉关键的时空信息的能力,对实例分割等任务至关重要。受人类视觉研究的启发,尤其是共同命运的格式原则,该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器(3D VQVAE)的视频生成编码器模型,以输入帧作为条件,并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应,分析它们的潜在空间,并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果,为计算机视觉应用中的场景分析和分割工作提供了进展。
May, 2024
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
通过引入 Interactive VideoGPT (iVideoGPT) 框架,可以在实现世界决策过程中,使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号(视觉观察,行为和奖励)整合成一系列令牌,实现了通过下一个令牌预测的交互式体验,其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上进行预训练,建立起适用于各种下游任务的多功能基础,其中包括动作条件的视频预测,可视化规划和基于模型的强化学习,并且在与最先进方法相比,iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展,弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。
May, 2024
该研究论文提出了一种名为 VGT 的视频图形转换器模型,旨在解决视频问答任务中动态关系推理方面的挑战,其独特性在于利用动态图形变换器模块对视频进行编码,并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察,证明了 VGT 的有效性和优越性,并揭示了其可用于更数据有效的预训练。
Jul, 2022
本文提出了一种基于 VQ-VAE 的视频预测方法,将高分辨率视频压缩为一组分层多尺度离散潜在变量,然后应用可扩展自回归生成模型,相对于先前的工作,更关注大规模多样化的数据集,并使用人工评估验证了其效果。
Mar, 2021
我们提出了一个基于 Transformer 的通用简单文本到视频模型,将文本和视频编码到相同的隐藏空间,使用 Transformer 捕捉时间一致性并生成文本或图像,通过 U-Net 从噪音版本重构图像,增加图像中的噪音级别,使用 U-Net 的 $down$ 模块编码噪音图像,在 Transformer 中输入以预测下一个清晰图像,同时限制任何生成图像对之间的运动,使用 GPT2 在 UCF101 数据集上进行测试并展示其能够生成有希望的视频。
Sep, 2023
我们介绍了 T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明,我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT,能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量,并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色,在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究,我们进一步验证了我们框架的有效性,并考察了每个组件的贡献。我们的发现表明,相比 VQ-VAE 类型的模型,RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作,而且计算需求相当。因此,T2M-HiFiGPT 能够以显著提高的准确性生成人体动作,优于最新的基于扩散和 GPT 的方法,如 T2M-GPT 和 Att-T2M。
Dec, 2023
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021