朝向二值门的鲁棒 LSTM 训练
本文提出一种利用双变量贝塔分布代替传统 sigmoid 函数的门控结构,可以高效地建模 LSTM 中的门控,并且在句子分类、图像分类、多音乐模型和图像标题生成等任务中有较好表现。
May, 2019
通过解耦 LSTM 门控机制,作者提出了一种新的 RNN 类型,其中门控机制本身作为一种通用的循环模型,提供了比之前更强的表达能力,并且实验表明,门控机制单独在大多数情况下的表现不亚于 LSTM,强烈暗示门控机制在实践中做得比消除消失梯度更多。
May, 2018
本文提出了一种仅含遗忘门的 LSTM 神经网络模型(即 JANET),采用 chrono-initialized 偏置技术,经实验证明该模型在多个基准数据集上不仅提高了计算效率,而且性能表现较传统 LSTM 网络更优,达到了 99% 和 92.5% 的准确率。
Apr, 2018
本文介绍了长短时记忆网络的互相门机制,以实现更好地建模自然语言处理中上下文之间的交互, 并通过实验在多个数据集上证明了其在语言建模上较传统模型具有更好的泛化能力和性能表现。
Sep, 2019
本研究旨在回答两个问题:a)为什么长短期记忆(LSTM)作为一种序列模型在 SPSS 中表现良好;b)哪个元素(例如,输入门,输出门,遗忘门)最重要。 通过一系列实验以及视觉分析,我们提出了一种简化的架构,比 LSTM 具有较少的参数,从而大大降低了生成一般的复杂性而不降低质量。
Jan, 2016
本文提出一种 H-LSTM 模型,利用增长和修剪(GP)的方式通过梯度增长和基于大小的修剪来迭代调整隐藏层,从而使得模型在图像字幕和语音识别等应用中的表现更快、更精确、更紧凑。
May, 2018
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本文提出了一种简化的 Gated Recurrent Units 架构,用于语音识别。通过去除重置门和引入 ReLU 激活函数,我们的实现在训练时间上提高了 30%以上,并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。
Sep, 2017