自然语言处理的部分张量化变压器

Oct, 2023

自然语言处理的部分张量化变压器

Partial Tensorized Transformers for Natural Language Processing

Subhadra Vadlamannati, Ryan Solgi

TL;DR本研究利用张量列分解技术对 Transformer 视觉语言神经网络（BERT 和 ViT）进行压缩，从嵌入层压缩和神经网络的部分张量化两方面进行，提高了现有模型的准确性，无需后训练调整。

Abstract

The transformer architecture has revolutionized Natural Language Processing (NLP) and other machine-learning tasks, due to its unprecedented accuracy. However, their extensive memory and parameter requirements of

transformer architecture tensor-train decomposition accuracy compress neural networks

发现论文，激发创造

用张量嵌入层实现模型高效压缩

本文介绍了一种使用 Tensor Train（TT）分解来压缩模型中的嵌入层的新方法，并在自然语言处理的广泛基准测试中评估了其性能与压缩比之间的平衡。

Jan, 2019

神经网络模型简化的张量分解：一篇综述

该研究论文综述了六种张量分解方法及其在神经网络中的应用，说明使用这些方法可以明显地减少模型的大小，运行时间和能耗，在边缘设备上实现神经网络时效果显著。

Apr, 2023

语言建模的张量变换器

本文提出了基于张量分解和参数共享的多线性注意力模型（即 Multi-linear attention）与块状张量分解（Block-Term Tensor Decomposition，BTD）相结合的自注意力模型，该方法在语言建模和神经机器翻译任务中获得了性能改进。与多个语言建模方法（如 Transformer，Transformer-XL 和使用张量训练分解的 Transformer）相比，Multi-linear attention 不仅可以大大压缩模型参数，还可以获得性能提升。

Jun, 2019

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022

优化 Transformer 推理技术综述

本文综述了技术优化变压器网络推断的技术，包括知识蒸馏，修剪，量化，神经架构搜索和轻量级网络设计，以及硬件级优化技术和设计新型硬件加速器，可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。

Jul, 2023

使用张量列车矩阵表示的高效 GPT 模型预训练

本研究通过将全连接层的矩阵替换为相应的张量列车矩阵结构以减少 GPT-2 体系结构的参数数量，并提出了一种可扩展的张量化层，以提高模型效率和最终模型的稳定性。

Jun, 2023

自然语言处理的增强 Transformer 架构

本文提出了一种新型 Transformer 结构，其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用 Multi30k 翻译数据集进行双语评估替代，验证了所提出的增强型 Transformer 模型。结果显示，增强型 Transformer 的 BLEU 分数比原始 Transformer 模型高出了 202.96%。

Oct, 2023

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

自然语言处理中 Transformer 的效率综述

该论文通过对 NLP 的演变及其应用的准确性和效率的评论，以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查，旨在确定当前 NLP 技术对可持续社会的贡献，并为未来研究奠定基础。

May, 2024