循环神经网络是否能够扭曲时间?
本文比较了不同类型的递归神经网络中的递归单元,特别是实现门机制的更加复杂的递归单元,例如长短时记忆(LSTM)单元和最近提出的门控循环单元(GRU),我们在复调音乐建模和语音信号建模的任务中对这些递归单元进行了评估,实验证明这些先进的递归单元确实比传统的 tanh 单元更好,同时我们发现 GRU 与 LSTM 相当。
Dec, 2014
本文使用可视化技术研究了 LSTM 和 GRU 在语音识别任务中的行为,并提出两种简单而有效的网络结构修改:LSTM 中的懒惰单元更新和残差学习的快捷连接。两种修改都使得网络更加易于理解和强大。
Sep, 2016
本文提出了一种简化的 Gated Recurrent Units 架构,用于语音识别。通过去除重置门和引入 ReLU 激活函数,我们的实现在训练时间上提高了 30%以上,并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。
Sep, 2017
本研究旨在回答两个问题:a)为什么长短期记忆(LSTM)作为一种序列模型在 SPSS 中表现良好;b)哪个元素(例如,输入门,输出门,遗忘门)最重要。 通过一系列实验以及视觉分析,我们提出了一种简化的架构,比 LSTM 具有较少的参数,从而大大降低了生成一般的复杂性而不降低质量。
Jan, 2016
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播,通过优化初始化超参数,开发出了一种新的初始化方案,解决了训练不稳定性问题,从而在多个序列任务上实现了成功的训练,并且在泛化能力上也有积极的影响。
Jan, 2019
通过解耦 LSTM 门控机制,作者提出了一种新的 RNN 类型,其中门控机制本身作为一种通用的循环模型,提供了比之前更强的表达能力,并且实验表明,门控机制单独在大多数情况下的表现不亚于 LSTM,强烈暗示门控机制在实践中做得比消除消失梯度更多。
May, 2018
提出了一种具有遗忘门的分层门控递归神经网络 (HGRN) 模型,其中遗忘门受可学习值下界限制,使得上层能够建模长期依赖,而下层能够建模更局部、短期的依赖关系。通过在语言建模、图像分类和长距离竞技场测试中进行实验,证明了该模型的高效性和有效性。
Nov, 2023
通过 Bayesian optimization 方案优化模型超参数,我们展示了统计循环单元 (SRU) 相比于门控循环神经网络 (LSTM) 和门控 GRU 的高效性。
Mar, 2017