TransNormer 模型参数适配至 1750 亿

Jul, 2023

Scaling TransNormer to 175 Billion Parameters

Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen...

TL;DR我们提出了 TransNormerLLM，这是第一个基于线性注意力的大型语言模型（LLM），在准确性和效率方面均超过了传统的基于 softmax 注意力的模型。

Abstract

We present transnormerllm, the first linear attention-based Large Language Model (LLM) that outperforms conventional softmax attention-based models in terms of both accuracy and efficiency. →

transnormerllm linear attention-based large language model efficiency position embedding inference acceleration

发现论文，激发创造

不同长度，匀速进行：高效语言建模与闪电注意力

我们提出了闪电注意力（Lightning Attention），这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。

May, 2024

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

线性复杂度语言模型的尺度定律

本研究通过研究线性复杂度语言模型的扩展性建立了基础，并对三种高效的线性架构进行了扩展行为的分析。结果显示，现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。

Jun, 2024

线性对数正态注意力与无偏集中度

通过分析自注意力机制的注意力矩阵分布和其专注能力，并引入一种新的自注意力机制（线性对数正态注意力），我们试图研究其与原始自注意力的分布和专注行为的模拟度量，实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案，为提高 Transformer 模型的可扩展性提供了有前景的途径。

Nov, 2023

线性变换中的魔鬼

本文提出了一种新的线性变压器模型，称为 transNormer，以解决现有线性变压器的性能问题，通过稳定梯度和改善注意力的方式，在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能，同时更加高效。

Oct, 2022

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

调整 Attention 中的 LayerNorm：朝着高效的多模态 LLM 微调

将大型语言模型（LLMs）转换为多模式大型语言模型（MLLMs）的有效策略，通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性，同时进一步使用对话数据进行选择性调整能够提高效率。

Dec, 2023

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

大规模语言模型的线性化

通过线性变压器架构，降低预训练成本，提出了一种代价效益较高的线性变压器预训练方法 SUPRA，并在标准基准测试中取得了竞争性的性能。

May, 2024

NormFormer: 更好的 Transformer 预训练模型，附加额外的归一化处理

NormFormer 结构通过在每一层中添加三种规范化操作，即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比，NormFormer 无需额外计算成本 (+0.4% 参数增加），对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外，NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度，或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。

Oct, 2021