TransNormer 模型参数适配至 1750 亿
我们提出了闪电注意力(Lightning Attention),这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。
May, 2024
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
本研究通过研究线性复杂度语言模型的扩展性建立了基础,并对三种高效的线性架构进行了扩展行为的分析。结果显示,现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。
Jun, 2024
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023
本文提出了一种新的线性变压器模型,称为 transNormer,以解决现有线性变压器的性能问题,通过稳定梯度和改善注意力的方式,在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能,同时更加高效。
Oct, 2022
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
Oct, 2019
将大型语言模型(LLMs)转换为多模式大型语言模型(MLLMs)的有效策略,通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性,同时进一步使用对话数据进行选择性调整能够提高效率。
Dec, 2023
在传统的 transformer 模型中,标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法,将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用,通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比,标准的下一个记号预测的时间复杂度与序列长度成线性关系,而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当,但允许在标准 attention 不可行的背景窗口范围内进行扩展。
Feb, 2024
NormFormer 结构通过在每一层中添加三种规范化操作,即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比,NormFormer 无需额外计算成本 (+0.4% 参数增加),对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外,NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度,或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。
Oct, 2021