Jun, 2024

OmniTokenizer: 一个用于视觉生成的联合图像 - 视频分词器

TL;DROmniTokenizer 是一种基于 Transformer 的 tokenizer,旨在处理图像和视频输入,并通过空间 - 时间解耦架构以及渐进式训练策略提供先进的重构性能。