Transformer-VQ: 基于向量量化的线性时间 Transformer

ICLRSep, 2023

Transformer-VQ: 基于向量量化的线性时间 Transformer

Transformer-VQ: Linear-Time Transformers via Vector Quantization

Lucas D. Lingle

TL;DRTransformer-VQ 是一种仅有解码器的 Transformer 模型，通过向量量化的键和新颖的缓存机制实现了线性时间内的高效 softmax 密集自注意力计算。在大规模实验中，Transformer-VQ 在质量方面表现出强大的竞争力，在 Enwik8（0.99 bpb）、PG-19（26.6 ppl）和 ImageNet64（3.16 bpb）上取得了优秀的结果。

Abstract

We introduce transformer-vq, a decoder-only transformer computing softmax-based dense self-attention in →

transformer-vq decoder-only transformer linear time softmax-based dense self-attention vector-quantized keys

发现论文，激发创造

LongVQ: 基于结构化记忆的长序列建模与向量量化

长序列模型中，使用了 LongVQ 方法以更有效地利用向量量化技术来压缩全局抽象，并以线性时间计算注意力矩阵，有效地解决长距离依赖问题。

Apr, 2024

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023

稀疏 VQ Transformer：一种无 FFN 框架，通过向量量化提升时间序列预测

稀疏量化后的无前馈层变压器（Sparse-VQ）用于时间序列分析与预测，成功地减少了噪声的影响并提高了计算效率，通过与现有的变压器模型进行集成，进一步提升了性能。

Feb, 2024

Q-ViT: 准确的、完全量化的低位视觉 Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在 ImageNet 数据集上实现高达 80.9％的准确性，并且比全精度对应物超过 1.0％的 Top-1 精度。

Oct, 2022

SOFT: 线性复杂度的无 Softmax Transformer

提出了一种 softmax-free transformer 或 SOFT 方法，通过使用高斯内核函数替换点积相似性，而不需要标准化以消除 softmax，在计算复杂度上具有线性复杂度，并显著提高了已有 ViT 变种的计算效率。

Oct, 2021

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

向量量化自编码器的理论与实验

该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果，并通过知识蒸馏技术，开发出一种非自回归机器翻译模型，其准确性几乎与强贪婪自回归基线变压器相当，但在推理速度上快 3.3 倍。

May, 2018

Efficient-VQGAN: 高分辨率图像生成的高效视觉 Transformer

通过引入局部关注机制、融合全局关注和局部关注机制、以及自动编码训练和自回归生成策略，提出了一种高分辨率图像生成的高效两阶段框架，实现了更高效率、更好的重建质量和更高分辨率的图像合成。

Oct, 2023

视觉 Transformer 的后训练量化

本文介绍了一种有效的后训练量化算法，以降低视觉变换器的内存存储和计算成本，并在多个基准模型和数据集上证明了所提出的方法的有效性，在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29％ top-1 精度。

Jun, 2021