通过p-范数门加速训练非常深的神经网络
本研究提出一种基于卷积神经网络的有限环境文本处理方法,采用新型简化门控机制,具有并行优势和长期学习效应,相比循环神经网络可获得更高的性能和更短的处理时间。在大规模文本任务中取得了领先水平,是非循环方法首次能够与强循环模型竞争。
Dec, 2016
本研究介绍了通道门控(channel gating)方法,该方法是动态、细粒度且硬件高效的裁剪方案,能够通过跳过对分类结果没有贡献的输入通道的计算,优化卷积神经网络。实验证明,该方法能够在几乎不损失准确度的情况下,实现浮点运算量减少2.7-8.0倍,内存访问减少2.0-4.4倍,并结合知识蒸馏可以进一步降低计算成本。我们还设计了一个加速器,能够以2.4倍的速度进行量化的ResNet-18模型的推理,并实现了2.8倍的理论FLOP减少。
May, 2018
本文通过mean field理论和随机矩阵理论的结合,解析了recurrent neural networks中gating机制的信号传播机理,并通过最小化的多层感知器网络(minimalRNN)与RNN的对比,研究了它们的训练性能。提出了初始方案的动态等角分解,并通过语言建模任务,证明了最小RNN可以与LSTM或GRU等复杂网络相媲美。
Jun, 2018
通过引入两个改进标准门控机制的修改,解决了门控机制在饱和状态下学习梯度的问题,在模拟记忆任务、序列图像分类、语言建模和强化学习等应用中有效提高了循环模型的性能。
Oct, 2019
通过深门控网络作为框架,理论分析和实验验证了几种DGNs变体,阐述了深度神经网络的训练和泛化方面的问题,着重讨论了为什么增加深度能帮助训练到一定程度,而增加深度会伤害训练,以及证明了门控自适应在泛化中的关键作用。
Feb, 2020
该研究提出一种高效的深度神经网络量化技术 - 精度门控(PG),可以动态地将大部分特征低精度计算,只将少量重要特征使用高精度计算来保证精度,从而大幅减少计算成本,同时保持准确率。该技术适用于各种DNN体系结构和模型,对于CNNs,PG与ImageNet数据集上的最优量化技术相比,准确率相同或更高,但计算耗费只有2.4倍。同时,PG还可以应用于RNNs,并且相比8位均匀量化,其在Penn Tree Bank数据集上的LSTM上获得了1.2%的困惑度提高和2.7倍的计算成本降低。
Feb, 2020
基于图神经网络 (Graph Neural Networks) 的优化和学习动态尚未被广泛探索,本研究通过分析图注意力网络 (Graph Attention Network) 提出的保守定律解释了标准初始化中参数变动困难的现象,并提出了一种初始化方案来平衡图注意力网络,使得深层网络更易于训练并加速收敛速度。
Oct, 2023
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers在适度规模的语言建模中表现竞争力,并在训练速度上与基于CUDA优化的FlashAttention-2相媲美。
Dec, 2023