本文介绍了一种使用 Tensor Train(TT)分解来压缩模型中的嵌入层的新方法,并在自然语言处理的广泛基准测试中评估了其性能与压缩比之间的平衡。
Jan, 2019
该研究论文综述了六种张量分解方法及其在神经网络中的应用,说明使用这些方法可以明显地减少模型的大小,运行时间和能耗,在边缘设备上实现神经网络时效果显著。
Apr, 2023
本文提出了基于张量分解和参数共享的多线性注意力模型(即 Multi-linear attention)与块状张量分解(Block-Term Tensor Decomposition,BTD)相结合的自注意力模型,该方法在语言建模和神经机器翻译任务中获得了性能改进。与多个语言建模方法(如 Transformer,Transformer-XL 和使用张量训练分解的 Transformer)相比,Multi-linear attention 不仅可以大大压缩模型参数,还可以获得性能提升。
Jun, 2019
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
May, 2022
本文综述了技术优化变压器网络推断的技术,包括知识蒸馏,修剪,量化,神经架构搜索和轻量级网络设计,以及硬件级优化技术和设计新型硬件加速器,可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。
Jul, 2023
本研究通过将全连接层的矩阵替换为相应的张量列车矩阵结构以减少 GPT-2 体系结构的参数数量,并提出了一种可扩展的张量化层,以提高模型效率和最终模型的稳定性。
Jun, 2023
本文提出了一种新型 Transformer 结构,其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用 Multi30k 翻译数据集进行双语评估替代,验证了所提出的增强型 Transformer 模型。结果显示,增强型 Transformer 的 BLEU 分数比原始 Transformer 模型高出了 202.96%。
Oct, 2023
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
在该研究中,作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用,并对修剪、量化等压缩方法进行了分类和讨论。
Feb, 2024
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
May, 2024