HGRN2:具有状态扩展的门控线性循环神经网络
提出了一种具有遗忘门的分层门控递归神经网络 (HGRN) 模型,其中遗忘门受可学习值下界限制,使得上层能够建模长期依赖,而下层能够建模更局部、短期的依赖关系。通过在语言建模、图像分类和长距离竞技场测试中进行实验,证明了该模型的高效性和有效性。
Nov, 2023
基于门控线性递归的 Hawk 和将门控线性递归与局部注意力相结合的混合模型 Griffin 在效率方面超过了 Mamba 和 Llama-2,在训练和推理阶段都具有更高的硬件效率,并且可以有效地进行分布式训练。
Feb, 2024
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
通过添加残差连接并低秩、稀疏和量化,FastRNN 和 FastGRNN 算法在精准度与资源消耗之间取得了平衡,使 FastGRNN 在 KB 级别且极度资源受限的 IoT 微控制器上实现了准确识别语音唤醒词 ″Hey Cortana” 的目标。
Jan, 2019
本文提出了一种名为 GRAN 的新型图形回归注意力网络的有效且表达性强的深度生成模型,能够生成高质量大规模图形,同时与之前的 RNN-based 生成模型相比,GRAN 使用了 GNN 和注意力机制更好地捕捉到已生成和待生成部分的条件之间的自回归关系,并在输出分布上采用伯努利分布的混合来捕捉区块内的生成边之间的相关性,同时在处理节点顺序方面也提出了一些新的解决方法。
Oct, 2019
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本文提出了一种基于 gated relation network 的卷积神经网络模型,用于更好地捕捉词汇间的长期关联以用于命名实体识别,实验结果表明,该模型可以在 CoNLL2003 和 Ontonotes 5.0 数据集上实现最先进的性能。
Jul, 2019
本文提出了一种简化的 Gated Recurrent Units 架构,用于语音识别。通过去除重置门和引入 ReLU 激活函数,我们的实现在训练时间上提高了 30%以上,并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。
Sep, 2017
本论文介绍了一种基于门控状态空间(GSS)的自回归序列建模方法,该方法使用自注意力来建模局部依赖关系,从而能够有效地处理长距离依赖关系,且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明,该方法训练速度明显快于传统方法并且具有零样本推广能力。
Jun, 2022
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023