Megalodon: 高效的 LLM 预训练与无限上下文长度的推断

Apr, 2024

Megalodon: 高效的 LLM 预训练与无限上下文长度的推断

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu...

TL;DRMegalodon 是一种用于有效的序列建模，能处理长序列的神经架构，通过引入多个技术组件，包括复杂的指数移动平均值、时间步归一化层、归一化注意机制和双跳剩余配置，提高了其能力和稳定性，在与 Llama2 的对比中在 70 亿参数和 2 万亿训练标记的规模上比 Transformer 更高效。

Abstract

The quadratic complexity and weak length extrapolation of transformers limits their ability to scale to long sequences, and while sub-quadratic solutions like linear attention and state space models exist, they e

transformers sequence modeling megalodon efficient long sequences

发现论文，激发创造

LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

LightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Oct, 2023

Mega: 移动平均装备的门控注意力

本文介绍了 Mega，这是一种简单，从理论上得到支持的单头门控注意力机制，具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度，该文进一步提出了 Mega 的变体。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中，证明了 Mega 优于其他序列模型，包括 Transformer 的变体和最近的状态空间模型。

Sep, 2022

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

长颈鹿：在 LLM 中扩展上下文长度的探险

现代大型语言模型（LLMs）通常使用固定的上下文长度进行训练，但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型，可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛调研，并介绍了一些新的设计，特别是一种用于修改位置编码基础的截断策略。我们使用三个新的评估任务（FreeFormQA，AlteredNumericQA 和 LongChat-Lines）以及困惑度进行了测试，并将这些任务作为公共数据集发布在 HuggingFace 上。我们发现线性标度是扩展上下文长度的最佳方法，并且显示在评估时使用更长的标度可以获得进一步的收益。我们还发现在截断基础中存在有希望的推测能力。为了支持进一步的研究，我们发布了三个新的 13B 参数长上下文模型，名为 Giraffe：从基础 LLaMA-13B 训练的 4k 和 16k 上下文模型，以及从基础 LLaMA2-13B 训练的 32k 上下文模型。我们还发布了复制我们结果的代码。

Aug, 2023

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

拾獲的鬣狗：将 Transformer 精简为长卷积模型

介绍一种使用知识蒸馏进行架构间转移的方法，通过将注意力头替换为 Hyena，提供一种高效且经济的大规模语言模型预训练方法，既能处理长篇文本又能提高推理速度和准确性，以在 AI 领域追求可持续发展。

Jan, 2024

IceFormer: 基于 CPU 的长序列 Transformer 加速推理

通过加速自注意机制在推断时的方法，我们成功加速了各种长序列转换器，并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升，同时保留了 98.6%-99.6% 的原始预训练模型的准确性。

May, 2024

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

DeciMamba: 探索 Mamba 的长度外推潜能

通过对 Mamba 的可推广长度进行可视化和分析，发现限制来自于训练阶段使用的序列长度，为了解决此限制，引入了一种特别设计给 Mamba 的上下文扩展方法 DeciMamba，通过 S6 层中嵌入的隐藏过滤机制，使得经过训练的模型即使没有额外的训练也能良好地推广，经真实世界的长距离 NLP 任务实验表明，DeciMamba 可以将推广的上下文长度延长到训练过程中看到的长度的 25 倍，而且无需使用额外的计算资源。

Jun, 2024