Griffin:将门控线性循环与局部注意力相融合的高效语言模型
HGRN2 通过引入基于外积的状态扩展机制,在不引入额外参数的情况下,显著增加了循环状态大小,提高了语言建模、图像分类和长距离竞技场方面的性能。
Apr, 2024
提出了一种具有遗忘门的分层门控递归神经网络 (HGRN) 模型,其中遗忘门受可学习值下界限制,使得上层能够建模长期依赖,而下层能够建模更局部、短期的依赖关系。通过在语言建模、图像分类和长距离竞技场测试中进行实验,证明了该模型的高效性和有效性。
Nov, 2023
我们介绍了一个开放的语言模型,使用了谷歌的全新的 Griffin 架构。Griffin 结合了线性递归和局部注意力,在语言方面有出色的表现。它具有固定大小的状态,可减少内存使用并在长序列上实现高效的推理。我们提供了一个已经预训练的模型,其中包含 2B 个非嵌入参数,还有经过调整的指令变种。尽管这两个模型的训练标记较少,但它们都实现了与 Gemma-2B 相当的性能。
Apr, 2024
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
本文提出了一种名为 GRAN 的新型图形回归注意力网络的有效且表达性强的深度生成模型,能够生成高质量大规模图形,同时与之前的 RNN-based 生成模型相比,GRAN 使用了 GNN 和注意力机制更好地捕捉到已生成和待生成部分的条件之间的自回归关系,并在输出分布上采用伯努利分布的混合来捕捉区块内的生成边之间的相关性,同时在处理节点顺序方面也提出了一些新的解决方法。
Oct, 2019
本文介绍了一种称为 LRN 的轻量级循环神经网络,它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸,并且可以作为替代现有循环单元的可落地的解决方案,该方法将计算量从循环中转移至外部,并与自我注意力网络紧密连接。通过六项自然语言处理任务的广泛实验证明,使用 LRN 能够获得最高的运行效率,而且模型性能几乎没有损失。
May, 2019
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
本研究提出一种新型的循环神经网络结构,即门控反馈循环神经网络,通过全局门控单元来控制和允许来自上层循环层到下层层的信号,改进了现有的多层循环层叠加方法,我们评估了不同类型的循环神经元,如 tanh,长短时记忆和门循环单元,在字符级语言建模和 Python 程序评估等任务上,实验证明 GF-RNN 优于传统方法构建深度堆叠循环神经网络,因为 GF-RNN 可以通过学习对这些交互进行门控从而自适应地将不同的层分配给不同的时间尺度和层间交互。
Feb, 2015