使用二进制球面量化对图像和视频进行令牌化

Jun, 2024

使用二进制球面量化对图像和视频进行令牌化

Image and Video Tokenization with Binary Spherical Quantization

Yue Zhao, Yuanjun Xiong, Philipp Krähenbühl

TL;DR提出了一种新的基于转换器的图像和视频分词器，使用二值球面量化实现。BSQ 将高维视觉嵌入投影到低维超球面上，然后应用二值量化。我们的分词器使用变长视频输入的转换器编码器和解码器，通过简单的分块因果掩蔽实现。基于此的 BSQ-ViT 在图像和视频重建基准上达到了最先进的视觉重建质量，并实现了最佳先前方法的 2.4 倍吞吐量。此外，通过学习自回归先验进行自适应算术编码，BSQ-ViT 在视频压缩方面达到了与最先进的视频压缩标准相当的结果。BSQ-ViT 还使得遮蔽语言模型能够实现与基于 GAN 和扩散的方法相媲美的图像合成质量。

Abstract

We propose a new transformer-based image and video tokenizer with Binary Spherical Quantization (BSQ). BSQ projects the high-dimensional v

transformer-based binary spherical quantization tokenizer bsq-vit image and video

发现论文，激发创造

图像搜索的深度球面量化

本文提出了 Deep Spherical Quantization（DSQ）方法，通过多码本量化，使深度卷积神经网络生成监督和紧凑的二进制代码以实现高效图像搜索，并经过大量实验证明，DSQ 及其稀疏变体能以优于许多最先进的图像检索方法的形式生成语义可分的紧凑二进制代码。

Jun, 2019

Bi-ViT: 推动视觉 Transformer 量化极限

介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法，并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率，并在 FLOPs 方面获得了显著的理论加速。

May, 2023

Transformer-VQ: 基于向量量化的线性时间 Transformer

Transformer-VQ 是一种仅有解码器的 Transformer 模型，通过向量量化的键和新颖的缓存机制实现了线性时间内的高效 softmax 密集自注意力计算。在大规模实验中，Transformer-VQ 在质量方面表现出强大的竞争力，在 Enwik8（0.99 bpb）、PG-19（26.6 ppl）和 ImageNet64（3.16 bpb）上取得了优秀的结果。

Sep, 2023

改进 VQGAN 的向量量化图像建模

使用预训练 Transformers 模型，结合 VQGAN 模型实现离散图像向量量化，进一步提高了图像生成和无监督表示学习的效率和准确性。同时，该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。

Oct, 2021

SUBIC: 一种用于图片搜索的有监督结构化二进制编码

本研究提出了一种基于深度卷积神经网络实现的、有监督且压缩的、结构化二进制编码的方法。通过使用块 softmax 非线性和基于批次的熵损失，本方法可以使学习到的编码具有结构性，并在单一和交叉领域分类、实例检索和类别检索等任务中，表现出比基于深度哈希或结构化量化的现有压缩表示更好的性能。

Aug, 2017

高效交叉视角视频检索的混合对比量化方法

本研究提出了用于跨视图视频检索的混合对比量化（HCQ）方法，该方法通过引入 transformers 来学习粗粒度和细粒度量化，并在跨视图的多个细粒度层次上进行不对称量化对比学习（AQ-CL）以对齐文本和视频。 HCQ 方法在存储和计算方面表现出高效率，并展示了与最先进的非压缩检索方法相当的性能。

Feb, 2022

BSQ：探索混合精度神经网络量化的比特级稀疏性

提出了比特级稀疏量化法（BSQ），通过引入可微比特稀疏正则化，考虑量化权重的每一位作为一个独立可训练变量，实现了每组权重元素的全零位诱导以及实现动态精度降低，使得在 CIFAR-10 和 ImageNet 数据集上相对于以往方法，BSQ 在各种模型体系结构上获得更高的准确性和比特削减。

Feb, 2021

基于随机共振变压器的子标记视觉转换器嵌入

我们发现 Vision Transformers（ViTs）中存在量化伪像，这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言，我们建议使用通过子标记空间平移扰动输入图像获得的特征集合，灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”（SRT），我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征，捕捉到更多的局部细粒度结构，这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上，并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显，在三种不同架构上，我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中，SRT 也在所有指标上均改进了基线模型，平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上，SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后，尽管 SRT 仅基于像素级特征进行操作，但它也适用于像图像检索和目标发现这样的非密集预测任务，分别产生了一致的改进效果，最多分别提高了 2.6% 和 1.0%。

Oct, 2023

有限数量的标量量化：简化 VQ-VAE

我们提出使用有限数量标量量化（FSQ）替代 VQ-VAEs 中的向量量化（VQ），通过将 VAE 表示投影到少量维度中，并将每个维度量化为固定值的小集合，从而实现离散表示。我们在图像生成中使用 MaskGIT，以及在深度估计、上色和全景分割中使用 UViM，尽管 FSQ 的设计简单，但在这些任务中获得竞争性表现。我们强调 FSQ 不会出现代码本崩溃问题，也不需要复杂的机制来学习表达丰富的离散表示。

Sep, 2023

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023