Oct, 2023

语言模型领先于扩散 - 分词器是视觉生成的关键

TL;DR通过引入 MAGVIT-v2 作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。