面向多任务多模态模型的视频生成视角

May, 2024

面向多任务多模态模型的视频生成视角

Towards Multi-Task Multi-Modal Models: A Video Generative Perspective

Lijun Yu

TL;DR通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

Abstract

Advancements in language foundation models have primarily fueled the recent surge in artificial intelligence. In contrast, generative learning of non-textual modalities, especially →

发现论文，激发创造

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频-语言预训练模型（HD-VILA），它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互，取得了10个VL理解任务和2个文本到视觉生成任务的最新结果

Nov, 2021

通过多模态调节进行视频综合的展示和说明

使用多模态生成框架，结合文本和图像训练双向变压器等多重输入来预测离散视频表示，同时提供改进的样本视频代币和文本增广，以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态，可以通过文本提示生成对应视频，并在四个数据集上取得了最新的生成结果。

Mar, 2022

语言模型领先于扩散 - 分词器是视觉生成的关键

通过引入MAGVIT-v2作为视觉分词器，本文展示了大型语言模型（LLMs）在图像和视频生成上优于扩散模型，并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。

Oct, 2023

Video-LaVIT：统一的视频-语言预训练与解耦的视觉-运动词汇编

本文介绍了一种用于视频-语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的13个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

VideoTetris：走向组合式文本到视频生成

Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.

Jun, 2024

当视频编码遇到多模态大型语言模型：视频编码的统一范式

本研究解决了现有视频编码器未充分利用多模态大型语言模型（MLLMs）所带来的外部先验的问题。我们提出了一种横跨模态的视频编码统一范式，通过将视频拆分为空间内容和运动成分来实现更紧凑的表示。实验结果表明，TT2V模式能有效重建语义信息，而IT2V模式则展现出良好的感知一致性，指明了视频编码未来的研究方向。

Aug, 2024

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

本研究解决了文本到视频生成过程中高计算成本的问题，提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略，优化了视频数据的处理，并保持临时一致性。实验结果表明，xGen-VideoSyn-1在生成720p视频时具备竞争力的性能，推动了文本到视频合成技术的发展。

Aug, 2024

多模态生成AI：多模态大型语言模型、扩散模型及其未来

本文探讨了多模态生成AI中的关键技术，特别是多模态大型语言模型（MLLM）和扩散模型的统一建模问题。在综述现有模型的基础上，作者提出了一系列可能的统一模型构建策略，分析了其优势与劣势，为未来的多模态生成AI的发展提供了重要参考。本文的主要发现是通过优化模型架构和训练数据集，有望提升AI在理解与生成多模态内容方面的能力。

Sep, 2024

一切都是视频：通过下一个帧预测统一模态

本研究解决了多模态学习中传统方法局限于特定模态编码器的问题，通过将多模态任务统一 reformulated为下一个帧预测问题，提出了一种新颖的框架。该方法允许单一模型在不依赖特定模态组件的情况下有效整合不同模态，实现知识的无缝转移，对多种任务表现出良好的通用性，推动了多模态基础模型的设计简化。

Nov, 2024