面向多任务多模态模型的视频生成视角
本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。
Dec, 2014
本文提出了一种高分辨率和多样化的视频-语言预训练模型(HD-VILA),它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互,取得了10个VL理解任务和2个文本到视觉生成任务的最新结果
Nov, 2021
使用多模态生成框架,结合文本和图像训练双向变压器等多重输入来预测离散视频表示,同时提供改进的样本视频代币和文本增广,以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态,可以通过文本提示生成对应视频,并在四个数据集上取得了最新的生成结果。
Mar, 2022
通过引入MAGVIT-v2作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
Oct, 2023
本文介绍了一种用于视频-语言预训练的高效视频分解的方法,该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记,从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的13个多模态基准测试中,我们提出的框架表现出竞争性的性能。
Feb, 2024
Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.
Jun, 2024
本研究解决了现有视频编码器未充分利用多模态大型语言模型(MLLMs)所带来的外部先验的问题。我们提出了一种横跨模态的视频编码统一范式,通过将视频拆分为空间内容和运动成分来实现更紧凑的表示。实验结果表明,TT2V模式能有效重建语义信息,而IT2V模式则展现出良好的感知一致性,指明了视频编码未来的研究方向。
Aug, 2024
本研究解决了文本到视频生成过程中高计算成本的问题,提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略,优化了视频数据的处理,并保持临时一致性。实验结果表明,xGen-VideoSyn-1在生成720p视频时具备竞争力的性能,推动了文本到视频合成技术的发展。
Aug, 2024
本研究解决了文本到视频生成中对个别概念(如角色的运动和外观)控制不精准的问题。我们提出了一种新颖的方法,通过将每个概念以3D表示分开生成,并结合大语言模型和2D扩散模型的先验信息进行合成。实验表明,该方法能够从文本生成高保真度的视频,并对每个概念实现灵活控制。
Aug, 2024
本文探讨了多模态生成AI中的关键技术,特别是多模态大型语言模型(MLLM)和扩散模型的统一建模问题。在综述现有模型的基础上,作者提出了一系列可能的统一模型构建策略,分析了其优势与劣势,为未来的多模态生成AI的发展提供了重要参考。本文的主要发现是通过优化模型架构和训练数据集,有望提升AI在理解与生成多模态内容方面的能力。
Sep, 2024