通过关注结构化的量化嵌入来促进 Transformer 的系统性
长序列模型中,使用了 LongVQ 方法以更有效地利用向量量化技术来压缩全局抽象,并以线性时间计算注意力矩阵,有效地解决长距离依赖问题。
Apr, 2024
该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
探索量化对 S5 模型的影响以及将其部署到边缘和资源受限平台的有效性。使用量化感知训练(QAT)和事后量化(PTQ)系统评估了 SSM 在不同任务上的量化灵敏度,研究结果表明,循环权重低于 8 位精度时,大多数任务的性能显著下降,而其他组件可以进一步压缩而不会引起显著的性能损失。此外,研究还发现 PTQ 在基于语言的任务上表现良好,而其他任务则需要 QAT。该研究为高效和硬件优化的 SSM 的持续发展提供了必要的见解。
Jun, 2024
本文研究 transformers 学习的机制和语义结构,揭示了 embedding 层和 self-attention 层如何编码语义结构,具体表现为同主题单词之间的嵌入内积和自注意力相对较高。
Mar, 2023
我们提出了一种语义神经离散表示学习的新方法,称为 Semantic Vector-Quantized Variational Autoencoder (SVQ),通过从底层离散概念模式到对象表示的层次化构建场景表示,并通过训练这些表示上的先验模型来生成图像,并且我们的模型在生成性能和场景理解任务方面表现优于其他非语义向量量化方法。
Feb, 2024
本文探讨了 Transformer 模型的量化问题,并给出了三种解决方法,其中一种基于 embedding group 的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法,以实现更大的内存节省。
Sep, 2021
量子嵌入式与变压器是一种新颖且有前景的架构,用于实现在近期设备或模拟器上提供异常能力的量子机器学习。该研究在 BirdCLEF-2021(一个具有挑战性的高维度数据集)上,通过结合视觉变压器(ViT)显著提升了量子嵌入能力,并使得单比特分类器的中值 F1 得分提高了约 3%。该研究展示并分析了实证证据,证明我们基于变压器的架构对于现代量子机器学习问题是一种高度灵活和实用的方法。
Feb, 2024
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base,并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重,同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战,这些模型必须概括他们没有针对性微调的语言。
Jul, 2023