Jun, 2024

使用二进制球面量化对图像和视频进行令牌化

TL;DR提出了一种新的基于转换器的图像和视频分词器,使用二值球面量化实现。BSQ 将高维视觉嵌入投影到低维超球面上,然后应用二值量化。我们的分词器使用变长视频输入的转换器编码器和解码器,通过简单的分块因果掩蔽实现。基于此的 BSQ-ViT 在图像和视频重建基准上达到了最先进的视觉重建质量,并实现了最佳先前方法的 2.4 倍吞吐量。此外,通过学习自回归先验进行自适应算术编码,BSQ-ViT 在视频压缩方面达到了与最先进的视频压缩标准相当的结果。BSQ-ViT 还使得遮蔽语言模型能够实现与基于 GAN 和扩散的方法相媲美的图像合成质量。