自回归视频模型的扩展
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
本文通过将自回归生成模型与有损视频压缩任务联系起来,提出了一种基于机器学习的视频压缩方法。大规模视频数据的全面评估表明,在视频数据的压缩比率及失真质量上,该方法优于传统的基于机器学习和基于传统技术的方法。
Oct, 2020
本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。
Mar, 2020
该论文介绍了一种新的自我监督视频表示学习框架 ARVideo,其中通过自回归方式预测下一个视频令牌,将自回归视频令牌按照时空间隔进行聚类,并采用随机化时空预测顺序来提高学习效果,实验证明 ARVideo 是一种有效的自我监督视频表示学习范式,具有更高的训练效率。
May, 2024
该研究通过进行大规模的实证研究,针对视频帧预测问题,提出了一种不同于以往手工设计架构的方法:尽可能地降低归纳偏差,同时最大化网络容量,该方法表现良好并在三个不同数据集上进行了验证:建模物体交互、建模人类运动和建模汽车驾驶。
Nov, 2019
利用巨大语言模型和 GPT,我们将因果生成引入视频扩散模型中,通过引入因果时序注意力和以帧为提示的设计,我们提出了 Video Diffusion GPT(ViD-GPT),能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制,我们还能够消除重叠帧的冗余计算,显著提高了推理速度。广泛的实验证明,我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。
Jun, 2024
提出了一种基于变分自编码器和循环神经网络的视频生成和未来预测框架,通过时间条件抽样和属性控制的方式提高视频生成的一致性和质量,能够在给定属性和 / 或第一帧的情况下生成多样但高度一致的视频序列。
Mar, 2018
本文提出了一种基于层次结构的潜变量模型来提高模型表达能力,减少模糊预测,用于视频序列的未来帧预测任务,经过实验证明本方法在不同数据集上优于现有的潜变量模型。
Apr, 2019