OmniTokenizer: 一个用于视觉生成的联合图像 - 视频分词器

Jun, 2024

OmniTokenizer: 一个用于视觉生成的联合图像 - 视频分词器

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu...

TL;DROmniTokenizer 是一种基于 Transformer 的 tokenizer，旨在处理图像和视频输入，并通过空间 - 时间解耦架构以及渐进式训练策略提供先进的重构性能。

Abstract

Tokenizer, serving as a translator to map the intricate visual data into a compact latent space, lies at the core of visual generative models. Based on the finding that existing tokenizers are tailored to image or video inputs, this paper presents omnitokenizer, a →

omnitokenizer transformer-based tokenizer joint image and video tokenization spatial-temporal decoupled architecture state-of-the-art reconstruction performance

发现论文，激发创造

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

OmniVid: 通用视频理解的生成框架

通过使用语言作为标签并引入时间和区域标记，我们寻求统一视频理解任务的输出空间，以建立全共享的编码器 - 解码器架构，并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果，为更普遍的视频理解提供了新的观点。

Mar, 2024

OmniDataComposer：多模态数据融合与无限数据生成的统一数据结构

OmniDataComposer 是一种创新的方法，用于多模态数据融合和无限数据生成，其核心突破在于引入一种协同处理和合并多模态数据输入的高效数据结构，促进模态之间的互相增强和跨模态数据校正，将视频输入转化为详尽的顺序文档，从而更容易为大型语言模型处理，为视觉内容的视频字幕创作和基于视频内容的问答任务提供了宝贵的洞察。

Aug, 2023

OmniNet: 多模态多任务学习的统一架构

本文介绍了一种名为 OmniNet 的神经网络框架，使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习，并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。

Jul, 2019

全源网络监督学习用于视频识别

OmniSource 是一个使用多种数据源和格式进行联合训练的框架，能够在没有人类标记的情况下从网上抓取 3.5M 的图片和 800K 分钟的视频，提高了在视频识别领域的表现。

Mar, 2020

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

语言模型领先于扩散 - 分词器是视觉生成的关键

通过引入 MAGVIT-v2 作为视觉分词器，本文展示了大型语言模型（LLMs）在图像和视频生成上优于扩散模型，并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。

Oct, 2023

生成式视频变压器：物体能否成为语言的基本单位？

本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer（OCVT）模型，该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态，相较于基于像素的模型，其显著提高了记忆效率，能够在单个 48GB GPU 上训练长度达 70 帧的视频，且在 CATER 任务上取得了最新的实验结果。

Jul, 2021

TokenLearner：8 个学习到的令牌能为图像和视频做什么？

本文介绍了一种新的视觉表示学习方法，它依赖于少量自适应学习的令牌，并适用于图像和视频理解任务。与依赖手动设计的分割策略和处理大量密集抽样补丁以获取注意力的方法不同，我们的方法学习从视觉数据中挖掘重要令牌，从而有效地找到一些重要的视觉令牌，并使其能够对视频中更长的时空范围或图像中的空间内容进行配对注意力建模，同时具有更高的计算效率。在多个具有挑战性的基准测试中表现强劲，并且获得了与 ImageNet 的最新结果可比的结果，同时计算量显著降低。我们还在多个视频数据集（包括 Kinetics-400，Kinetics-600，Charades 和 AViD）上验证了该方法的有效性。

Jun, 2021

一幅图像对于重建与生成而言价值 32 个令牌

这篇研究论文介绍了一种基于 Transformer 的一维令牌化方法（TiTok），其将图像令牌化为一维潜在序列，通过提供更紧凑的潜在表示形式，实现了比传统技术更高效和更有效的图像合成。

Jun, 2024