Griffin：将门控线性循环与局部注意力相融合的高效语言模型

Feb, 2024

Griffin：将门控线性循环与局部注意力相融合的高效语言模型

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru...

TL;DR基于门控线性递归的 Hawk 和将门控线性递归与局部注意力相结合的混合模型 Griffin 在效率方面超过了 Mamba 和 Llama-2，在训练和推理阶段都具有更高的硬件效率，并且可以有效地进行分布式训练。

Abstract

recurrent neural networks (RNNs) have fast inference and scale efficiently on long sequences, but they are difficult to train and hard to scale. We propose hawk, an RNN with →

recurrent neural networks hawk griffin gated linear recurrences scaling efficiency

发现论文，激发创造

HGRN2：具有状态扩展的门控线性循环神经网络

HGRN2 通过引入基于外积的状态扩展机制，在不引入额外参数的情况下，显著增加了循环状态大小，提高了语言建模、图像分类和长距离竞技场方面的性能。

Apr, 2024

层次门控循环神经网络用于序列建模

提出了一种具有遗忘门的分层门控递归神经网络 (HGRN) 模型，其中遗忘门受可学习值下界限制，使得上层能够建模长期依赖，而下层能够建模更局部、短期的依赖关系。通过在语言建模、图像分类和长距离竞技场测试中进行实验，证明了该模型的高效性和有效性。

Nov, 2023

递归 Gemma：超越变压器实现高效的开放式语言模型

我们介绍了一个开放的语言模型，使用了谷歌的全新的 Griffin 架构。Griffin 结合了线性递归和局部注意力，在语言方面有出色的表现。它具有固定大小的状态，可减少内存使用并在长序列上实现高效的推理。我们提供了一个已经预训练的模型，其中包含 2B 个非嵌入参数，还有经过调整的指令变种。尽管这两个模型的训练标记较少，但它们都实现了与 Gemma-2B 相当的性能。

Apr, 2024

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

基于图循环注意力网络的高效图生成

本文提出了一种名为 GRAN 的新型图形回归注意力网络的有效且表达性强的深度生成模型，能够生成高质量大规模图形，同时与之前的 RNN-based 生成模型相比，GRAN 使用了 GNN 和注意力机制更好地捕捉到已生成和待生成部分的条件之间的自回归关系，并在输出分布上采用伯努利分布的混合来捕捉区块内的生成边之间的相关性，同时在处理节点顺序方面也提出了一些新的解决方法。

Oct, 2019

一种用于序列建模的轻量级循环网络

本文介绍了一种称为 LRN 的轻量级循环神经网络，它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸，并且可以作为替代现有循环单元的可落地的解决方案，该方法将计算量从循环中转移至外部，并与自我注意力网络紧密连接。通过六项自然语言处理任务的广泛实验证明，使用 LRN 能够获得最高的运行效率，而且模型性能几乎没有损失。

May, 2019

ReLU 和加法门控递归神经网络

通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数，该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制，从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时，捕捉到序列数据的长期依赖关系，并且在 CPU 上减少了一半的执行时间，在加密环境下减少了三分之一的执行时间，实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比，能够实现可比较的准确性。同时，该机制还能避免加密变量的乘法操作，从而支持具有保护隐私的同态加密人工智能应用，并能在（非加密）明文应用中支持量化操作，潜在地带来显著的性能提升。

Aug, 2023

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

门控反馈循环神经网络

本研究提出一种新型的循环神经网络结构，即门控反馈循环神经网络，通过全局门控单元来控制和允许来自上层循环层到下层层的信号，改进了现有的多层循环层叠加方法，我们评估了不同类型的循环神经元，如 tanh，长短时记忆和门循环单元，在字符级语言建模和 Python 程序评估等任务上，实验证明 GF-RNN 优于传统方法构建深度堆叠循环神经网络，因为 GF-RNN 可以通过学习对这些交互进行门控从而自适应地将不同的层分配给不同的时间尺度和层间交互。

Feb, 2015